Вы находитесь на странице: 1из 81

Hubungan Prosedur Evaluasi terhadap Tujuan Instruksional

CHAPTER 3 BAB 3 Berkaitan Prosedur Evaluasi terhadap Tujuan Instruksional


GENERAL INSTRUCTIONAL OBJECTIVES (Intended outcomes directing our teaching)
GENERAL INSTRUKSIONAL TUJUAN (hasil Ditujukan mengarahkan pengajaran kami)
SPECIFIC LEARNING OUTCOMES KHUSUS BELAJAR HASIL
(Pupil behaviors we are willing to accept as (Perilaku Murid kita bersedia untuk
menerima sebagai
evidence of the attainment of objectives) bukti pencapaian tujuan)
EVALUATION TECHNIQUES (Procedures for obtaining samples of pupil behavior
described in the specific learning outcomes) TEKNIK EVALUASI (Prosedur untuk
mendapatkan sampel perilaku murid dijelaskan dalam hasil pembelajaran yang
spesifik)
FIGURE 3,1. GAMBAR 3.1. Relation of evaluation techniques to objectives. Hubungan
teknik evaluasi untuk tujuan.
Tujuan instruksional mencakup berbagai hasil belajar. . . . . . .Evaluasi mencakup
berbagai prosedur. . . . . . .. Kunci untuk suara evaluasi adalah untuk
menghubungkan prosedur evaluasi secara langsung mungkin dengan hasil
pembelajaran tertentu sedang dievaluasi.
Sekarang harus jelas bahwa evaluasi merupakan bagian integral dari proses
belajar-mengajar. Itu bukan sesuatu yang tertempel di di akhir kursus; tidak
terbatas pada pengukuran jumlah bahan faktual dipertahankan; tidak terbatas
pada pemeriksaan kertas dan pensil. Evaluasi adalah proses yang komprehensif
berkelanjutan yang memanfaatkan berbagai prosedur dan yang tak terelakkan
terkait dengan tujuan program pembelajaran.
Dalam bab terakhir, kami tidak khawatir dengan proses penyusunan tujuan
instruksional untuk tujuan evaluasi. Proses ini termasuk mengidentifikasi tujuan
instruksional umum dan kemudian mendefinisikan masing-masing tujuan tersebut
dengan daftar hasil pembelajaran yang spesifik. Langkah terakhir dalam proses
evaluasi adalah untuk memilih atau mengembangkan instrumen evaluasi yang
memberikan bukti paling langsung mengenai pencapaian setiap hasil belajar
tertentu.
Urutan langkah-langkah yang ditunjukkan pada Gambar 3.1 meringkas prosedur
umum ini berkaitan teknik evaluasi untuk tujuan.
Langkah-langkah prosedural menjelaskan pentingnya berkaitan teknik evaluasi
langsung ke hasil pembelajaran tertentu sedang dievaluasi. Ini adalah satu-satunya

cara kita dapat memiliki kepastian bahwa kita mengevaluasi kemajuan murid
menuju hasil yang kami telah terpilih sebagai tujuan instruksional kami.
Proses yang berkaitan dengan teknik evaluasi hasil belajar spesifik pada dasarnya
adalah salah satu analisis yang logis dan penilaian. Proses ini dapat sangat
difasilitasi, namun, dengan penggunaan beberapa rencana evaluasi yang
sistematis.
RENCANA EVALUASI UMUM 61
Apakah guru adalah memutuskan pada prosedur evaluasi untuk unit kerja, kerja
semester, atau urutan kursus, beberapa rencana evaluasi umum yang diinginkan.
Minimal, rencana ini harus mencakup daftar hasil pembelajaran yang diinginkan dan
teknik yang akan digunakan dalam mengevaluasi kemajuan mereka. Tabel berikut,
berdasarkan beberapa tujuan yang dikembangkan oleh Mr Brown, guru biologi kelas
sepuluh kami, menggambarkan prosedur untuk mengembangkan rencana umum.
Sistem penomoran adalah bahwa yang digunakan oleh Mr Brown dan membantu
mengidentifikasi masing-masing tujuan dalam daftar aslinya (lihat Tabel 2.1). Grafik
evaluasi lengkap akan, tentu saja, mencakup semua tujuan dan hasil pembelajaran
yang spesifik diidentifikasi oleh Mr Brown.
Mr Browns grafik untuk rencana evaluasi umum menjelaskan sejumlah poin penting
tentang hubungan antara tujuan instruksional dan prosedur evaluasi. Untuk satu
hal, itu membuat jelas fakta bahwa hasil belajar tertentu, dinyatakan dalam hal
perilaku murid, begitu banyak dan beragam bahwa tidak ada teknik evaluasi
tunggal mungkin bisa memberikan bukti yang memadai tentang prestasi mereka.
Meskipun tes objektif yang ditunjukkan untuk banyak hasil belajar, daftar periksa,
catatan anekdot, dan teknik observasi lainnya juga sering disebutkan. Diagram ini
juga menyoroti pentingnya pernyataan yang jelas dari tujuan dan hasil
pembelajaran dalam memilih teknik evaluasi. Bahkan, ketika hasil pembelajaran
secara jelas dinyatakan dalam hal perilaku murid, mereka tidak hanya menunjukkan
apa yang harus dievaluasi, tetapi mereka juga menyarankan bagaimana untuk
mengevaluasi. Sebagai contoh, kalimat "1.1 Mendefinisikan istilah umum"
memberikan indikasi jenis teknik evaluasi yang harus digunakan. Hal ini
menunjukkan bahwa murid harus memberikan definisi sendiri. Oleh karena itu, tes
jawaban singkat, di mana murid diberikan istilah yang dipilih dan diminta untuk
mendefinisikan mereka, adalah teknik yang paling tepat evaluasi. Item tes objektif,
seperti pertanyaan pilihan ganda, di mana murid harus hanya mengidentifikasi
definisi, akan tidak memadai untuk mengevaluasi hasil belajar ini, seperti yang
dinyatakan. Tentu saja, hasil belajar yang spesifik dapat disajikan kembali untuk
membaca "Mengidentifikasi makna umum

Tujuan dan Hasil Belajar Spesifi


1 Murid tahu istilah umum yang digunakan dalam biologi ketika ia:
Mendefinisikan istilah umum.
Membedakan antara istilah umum atas dasar makna.
Mengidentifikasi makna istilah umum ketika digunakan dalam konteks.
6 Murid menunjukkan keterampilan berpikir kritis ketika ia:
Membedakan antara fakta dan opini.
Menarik kesimpulan yang valid dari data yang diberikan.
Mengidentifikasi asumsi yang mendasari kesimpulan.
6.4 6.4. Mengidentifikasi keterbatasan data yang diberikan.
8. Murid melakukan Tion terampil ketika ia:
Tempat spesimen dalam posisi yang tepat.
Cuts terampil tanpa merusak struktur yang akan dipelajari.
Memisahkan bagian struktural dari spesimen tanpa merusak mereka.
8.4 8.4 Selesaikan diseksi dalam waktu yang ditentukan.
10. Murid menempatkan informasi biologis ketika
dia:
Menempatkan referensi menggunakan katalog kartu perpustakaan.
Mengidentifikasi sumber-sumber umum informasi biologis.
Menggunakan daftar isi dan indeks ketika mencari informasi dalam buku-buku.
Mengidentifikasi relevansi informasi untuk masalah tertentu.
12 Murid menampilkan sikap ilmiah terhadap fenomena biologis ketika ia:
Menunda penilaian sampai semua fakta yang tersedia.
Mengidentifikasi hubungan sebab-akibat dalam data biologis.
. Menunjukkan kesediaan untuk mempertimbangkan interpretasi baru dari data
biologis.
Negara interpretasi data biologis yang bebas dari bias.

Menunjukkan kepercayaan dalam data biologis diperoleh dengan prosedur ilmiah.


* * Teknik Evaluasi berkaitan dengan belajar hasil dengan angka yang sesuai.
istilah "sehingga item tes objektif dapat digunakan. Namun, ini akan menjadi
perubahan dalam perilaku tertentu Mr Brown bersedia menerima sebagai bukti
bahwa murid tahu istilah umum yang digunakan dalam biologi. Jika ia percaya
bahwa mengetahui istilah mengharuskan murid dapat menentukan istilah dalam
kata-katanya sendiri, satu-satunya prosedur yang memadai evaluasi adalah
meminta murid untuk sehingga mendefinisikan istilah. Kemampuan untuk
mengidentifikasi definisi yang benar tidak dapat diterima sebagai bukti kemampuan
murid untuk memberikan definisi yang benar.
. Meskipun diskusi kita telah terfokus pada satu hasil pembelajaran yang spesifik,
prinsip dasar menilai setiap hasil belajar secara langsung mungkin adalah salah
satu yang menjadi ciri khas seluruh chart.. Misalnya, "6.1 membedakan antara fakta
dan opini" dapat dievaluasi dengan tes objektif. Ini hanyalah masalah menyajikan
murid dengan sejumlah pernyataan dan memintanya untuk menunjukkan yang
merupakan fakta dan mana yang pendapat. Di sisi lain, bagaimanapun, "6.2
Menarik kesimpulan yang valid dari data yang diberikan" membutuhkan tes pendekjawaban karena hasilnya menunjukkan bahwa murid akan menarik kesimpulan
sendiri dan tidak hanya mengidentifikasi kesimpulan yang diambil oleh orang lain.
Demikian pula, semua hasil yang berkaitan dengan "8. Murid melakukan operasi
dasar diseksi terampil" harus dievaluasi oleh beberapa perangkat observasi seperti
daftar atau skala penilaian. Pengetahuan tentang prosedur pembedahan tidak dapat
diterima sebagai bukti keterampilan diseksi. Pengetahuan tentang prosedur dapat
dan harus diukur untuk kepentingan diri sendiri, tetapi keterampilan dapat
dievaluasi hanya dengan langsung mengamati dan menilai diseksi prosedur murid
dan produk yang dihasilkan. Di bidang sikap ilmiah, seperti hasil belajar sebagai
"12,1 penilaian menunda sampai semua fakta yang tersedia" membutuhkan lebih
dari satu jenis bukti karena sulitnya evaluasi. Catatan anekdotal berdasarkan
pengamatan sehari-hari di kelas dan laboratorium akan memberikan bukti tentang
perilaku khas murid dalam menghadapi masalah ilmiah. Tetapi karena kurangnya
kesempatan untuk mengamati semua siswa di situasi yang membutuhkan perilaku
ini dan karena sifat subjektif dari pengamatan tersebut, juga diinginkan untuk
menggunakan item tes objektif.. Item tes tersebut hanya melengkapi catatan
anekdot, namun, karena respon terhadap item tes objektif tidak menunjukkan
bagaimana murid biasanya akan bersikap ketika dihadapkan dengan masalah yang
bersifat ilmiah. Singkatnya, kedua metode tidak memadai tetapi bersama-sama
mereka saling melengkapi dan memberikan bukti yang lebih memadai daripada
baik akan sendirian. Untuk setiap tujuan instruksional, kemudian, bagan evaluasi
menunjukkan teknik evaluasi yang memberikan bukti paling langsung dan memadai
mengenai sejauh mana perilaku murid itu sesuai dengan hasil pembelajaran yang
diinginkan.

Sebuah grafik evaluasi, seperti Mr Brown, juga membuat jelas perlunya


perencanaan program evaluasi pada awal unit, atau kursus, instruksi. Jika data yang
evaluatif harus diperoleh dengan menggunakan catatan anekdot, skala rating, dan
perangkat pengamatan lainnya, sifat

Teknik Evaluasi
Tujuan
Idealnya, perencanaan untuk evaluasi harus terjadi pada waktu yang sama dengan
rencana lain yang dibuat untuk kursus, ketika hal ini dilakukan, guru kadang-kadang
meliputi tujuan pengajaran, metode pengajaran, dan teknik evaluasi bersama-sama
dalam satu rencana. Bagan berikut ini merupakan versi sederhana dari rencana
untuk tujuan Mr Whiteside dalam penalaran aritmatika di tingkat kelas empat:
****Pengajaran Metode
Menyajikan siswa dengan berbagai masalah cerita yang mengandung fakta-fakta
lebih dari yang diperlukan agar siswa memperoleh latihan dalam mengidentifikasi
masalah, dan memilih fakta yang relevan serta dalam menghitung jawaban.
Murid menunjukkan kemampuan penalaran aritmatika ketika ia:
Mengidentifikasi masalah (apa yang diketahui).
Mengidentifikasi fakta yang diketahui relevan.
Mengidentifikasi proses aritmatika yang berhubungan dikenal dengan diketahui.
Memecahkan masalah kuantitatif menggunakan langkah-langkah di atas.
Termasuk tujuan, metode pengajaran, dan teknik evaluasi dalam satu rencana
umum menyoroti keterkaitan antara aspek ini mengajar di kelas dan meyakinkan
bahwa perencanaan untuk evaluasi akan dilakukan pada awal kursus.. Dalam
menggunakan prosedur ini, bagaimanapun, kita harus berhati-hati untuk tidak
mencoba untuk menghubungkan metode pengajaran terlalu dekat dengan tujuan
instruksional. Salah satu metode (misalnya, diskusi kelas) mungkin berhubungan
dengan berbagai tujuan, seperti pengetahuan, pemahaman, keterampilan
komunikasi, dan penyesuaian social. Demikian pula, satu tujuan (misalnya,
penghargaan) dapat menjadi hasil akhir dari serangkaian pengalaman yang
membutuhkan banyak metode pembelajaran.. Dalam keterbatasan ini, rencana
seperti yang dikembangkan oleh Mr Whiteside dapat menambahkan arah umum
untuk kedua pengajaran dan proses evaluasi.
instruksi tercantum di bagian atas meja, dan semua bidang utama dari konten yang
terdaftar di sisi meja. Sel-sel dalam tabel yang digunakan untuk menunjukkan
jumlah item tes harus siap untuk setiap hasil dari instruksi dan untuk
menggambarkan bagaimana hasil nontest akan dievaluasi. Sebuah versi sederhana
dari tabel tersebut, untuk unit cuaca dalam ilmu SMP, disajikan pada Tabel 3.1.

Ini akan dicatat dalam Tabel 3.1 bahwa dari lima puluh item dalam tes, dua belas
akan mengukur "pengetahuan tentang simbol dan istilah." Dua dari dua belas item
akan peduli dengan "tekanan udara," empat dengan "angin," dua dengan "suhu,"
dua dengan "kelembaban dan curah hujan," dan dua dengan "awan.". Angka-angka
di kolom lain yang harus dibaca dengan cara yang sama. Karena hasil keterampilan
memerlukan evaluasi kinerja, kolom tersebut berisi deskripsi singkat tentang
prosedur evaluasi yang akan digunakan.
Penekanan relatif yang diberikan kepada masing-masing tujuan dan setiap area
konten dalam tabel spesifikasi harus, tentu saja, mencerminkan penekanan
diberikan selama instruksi. Mereka hasil belajar yang menekankan sebagai lebih
penting, dan yang lebih banyak waktu instruksional dikhususkan, harus diberikan
bobot yang lebih besar dalam rencana evaluasi. Dalam tabel ilustrasi kami,
misalnya, dua hasil keterampilan ditugaskan 50 persen dari evaluasi keseluruhan
(persen 25 per masing-masing) dan empat tujuan yang akan dievaluasi dengan tes
kertas dan pensil ditugaskan 50 persen lainnya '( 10 sampai 16 persen masingmasing).
Tabel spesifikasi sering hanya menyertakan tujuan yang dapat diukur dengan tes
kertas dan pensil (lihat Tabel 6.2 dalam Bab 6), namun, ada beberapa keuntungan
untuk termasuk semua tujuan instruksional dalam tabel. Hal ini menjelaskan peran
penting dari pengujian dalam proses evaluasi total tetapi, pada saat yang sama,
mencegah penekanan yang berlebihan pada prosedur pengujian. Setiap teknik
evaluasi dipandang dalam perspektif yang benar.
Beberapa guru lebih memilih untuk memperluas tabel spesifikasi dengan
memasukkan hasil pembelajaran yang spesifik untuk setiap tujuan instruksional
umum dan dengan daftar garis yang lebih rinci tentang isi kursus. Ini adalah
pendekatan yang diinginkan asalkan jumlah spesifik tidak menjadi tidak terkendali.
Hal ini lebih layak di mana tabel spesifikasi didasarkan pada unit instruksi (seperti
dalam evaluasi formatif) daripada di mana tabel ini didasarkan pada hasil yang
diharapkan dari seluruh program (seperti dalam evaluasi sumatif).
MENGGUNAKAN DAFTAR SPESIFIKASI 64
Tipe lain dari rencana evaluasi adalah bahwa disediakan oleh grafik dua arah
disebut tabel spesifikasi. Grafik tersebut berhubungan tujuan instruksional dengan
isi kursus dan menentukan penekanan yang akan diberikan kepada masing-masing
jenis hasil belajar. Dimana tabel adalah untuk melayani sebagai rencana evaluasi
umum, semua tujuan instruksional umum untuk unit atau kursus
BERKAITAN DENGAN ITEM TES KHUSUS BELAJAR HASIL
Tabel spesifikasi menunjukkan jumlah item tes yang akan dikhususkan untuk
masing-masing tujuan instruksional umum. Ini adalah langkah pertama dalam

prosedur pengujian yang berkaitan dengan tujuan dan yang signifikan karena
memberikan beberapa

kami
jaminan bahwa setiap tujuan akan diwakili dalam tes sesuai dengan kepentingan
relatifnya. Pertanyaan utama, namun, dalam berhubungan prosedur pengujian
untuk tujuan, adalah: Apakah tanggapan murid disebut ditetapkan oleh item tes
langsung relevan dengan perilaku ditentukan oleh hasil pembelajaran yang spesifik?
Klarifikasi Tanggapan Murid diharapkan
Kita dapat meningkatkan kepastian bahwa barang-barang kami uji menimbulkan
perilaku murid yang relevan dengan lebih memperjelas respon murid diharapkan
untuk setiap hasil belajar tertentu. Hal ini dapat dilakukan di salah satu cara
berikut:
Menambah tingkat ketiga kekhususan untuk daftar tujuan.
Menentukan kata kerja yang digunakan dalam hasil pembelajaran yang spesifik.
Gunakan item tes sampel untuk menggambarkan hasil yang diharapkan.
Masing-masing metode akan dibahas pada gilirannya.
Arti dari setiap hasil belajar yang spesifik dapat lebih diperjelas dengan membuat
daftar beberapa, atau semua, dari tugas-tugas tertentu siswa diharapkan untuk
melakukan dalam menunjukkan pencapaian hasilnya. Hal ini akan memberikan tiga
tingkat untuk setiap tujuan instruksional, sebagai berikut:
1. Tahu bagian-bagian pidato dalam bahasa Inggris.
1.1 Mengidentifikasi kata benda dalam kalimat.
Menggarisbawahi setiap kata benda.
Mengelilingi setiap benda umum.
Menambahkan tingkat ketiga kekhususan seperti ini mungkin berguna untuk
memperjelas beberapa hasil belajar. Tugas spesifik menggambarkan dengan tepat
apa yang siswa akan lakukan untuk menunjukkan bahwa mereka dapat
mengidentifikasi kata benda. Perlu dicatat, bagaimanapun, bahwa hasil kami yang
dimaksud adalah masih identifikasi kata benda. Proses menggarisbawahi dan
mengelilingi hanya perilaku kita bersedia untuk digunakan sebagai indikator dari
kemampuan untuk mengidentifikasi. Dengan demikian, tingkat ketiga menyediakan
transisi antara hasil belajar tertentu dan item tes, tetapi perilaku tertentu tidak hasil
pembelajaran di kanan mereka sendiri (yaitu, Dalam contoh kita, kita tidak tertarik
untuk mengajar siswa bagaimana untuk menggarisbawahi dan mengepung,
melainkan cara untuk mengidentifikasi. Kami menganggap mereka sudah bisa

melakukan yang pertama.) tingkat ketiga ini kekhususan menyoroti salah satu
keuntungan menggunakan tingkat tujuan, daripada daftar tugas tertentu, untuk
menggambarkan hasil yang diharapkan dari instruksi. Dengan tingkat, kita
cenderung untuk mengacaukan hasil yang diharapkan dari instruksi dengan
indikator hasil tersebut. Cara lain untuk menjelaskan respon murid yang diharapkan
adalah untuk mendefinisikan, atau

bO . bo.
'Ei 'Ei
I 2 E co I 2 E co
^ 8 S 43 i3 " o ^ 8 S 43 i3 " o
V i3 bio * V i3 bio *
43 43
bo bo
15 15
ee
9 g I 9 GA I
ft o ft o
s 2 -s 2
a
U 3 ' 43 -a U 3 '43-a
go S pergi S
u 'bO 'P u 'bo' P
CO CO
.ao s bp . Ao -s bp
==^S4j == ^ S4j
O tj w co O tj w " co
CD CD
-.2 - .2 3 a 3 a
43 43 ft ft
2 - 2- " o "O
O M j3 O M j3

V CO -V CO CO Q CO Q
C/J C / J
.a 3 . 3
. . Eo Eo
h ZQ h ZQ
bo bo
cc
<i 3 c c <I 3 c c
g co g co
co co
s5s5
^a^A
oa) oa)
"1-8 2* "1-8 Februari *
CO CA CO CA
Is .& Apakah. &
> bO > Bo
ts i>H ts i> H co .5 co .5
co c co c
3 CO 3 CO
DD
1|1|
43 bp bO*^ .S 43 bp bo * ^. S
I! -I! rS 3 rS 3
|^43 | ^ 43

.2 o ft .2 O ft
oo ^ so g rt -i S 2 s oo ^ jadi g rt-i S 2 s
3 4= 3 4 =
03 ft 03 ft
P ^ P ^
bO bo
CO CO
ococ
CO CO
cc
ft ft
"I "Saya
co co Go Pergi
oo
CO CO JR JR
^ ^ CO CO
CO fe CO fe
sp s sp s
las las
33
C O CJ C O CJ
ft ft t3 t3
CO T3 CO T3
E '3 E '3
ca kira-kira
2 2 e e
ca kira-kira c^ c ^

* CO * CO E E
43 43 - a - A
*> *> <u <U
ft ft ft ft
. 3 . 3 CO CO
! ! 13 13 <a <A
i S i sa -c -C
t3 t3
V* 4 o V * 4 o
o 15 o 15
(3 CO (3 CO
co 53 co 53
c E ts> c E ts>
Vi Vi
CO ^1 CO ^ 1
EO o EO o
3 S o .2 3 S o .2
botj botj
CD CD
ie -ie
;; CD ;; CD
3 "n - 3 "n - bo IB . bo IB.
8 e^- 8 e ^ =a = A
13.2? 13.2?
^ MC C 4) rt ^ MC C 4) rt

to |-e6 untuk |-e6


sort I' a semacam saya a
III III
33 O g 33 O g
CO "3 CO g (Z) ft CO "3 CO -g (Z) ft
g* - 'So 43 ^ o g * - "Jadi 43 ^ o
i/o O i / o O
ft) 4) M ft) 4) M
tl -tl
-3 pi Pi -3
i J= <! i J = <!
CO CO
=3 cj ^ = 3 cj ^
o> 9 o> 9
. menjelaskan, setiap kata kerja tindakan yang digunakan dalam daftar hasil
pembelajaran yang spesifik, seperti digambarkan dalam Tabel 3.2. (Perhatikan Jenis
Tanggapan dan Uji Sample Tugas.) Prosedur ini sangat berguna di mana para guru di
departemen, atau seluruh sekolah, yang mengembangkan tujuan instruksional
untuk setiap kursus dalam kurikulum. Menggambarkan jenis tanggapan yang terkait
dengan setiap kata kerja tindakan memberikan makna seragam dari satu set tujuan
yang lain dan, pada saat yang sama, menghilangkan kebutuhan untuk
menambahkan tingkat ketiga kekhususan untuk setiap rangkaian tujuan. Termasuk
contoh tugas-tugas tertentu, seperti digambarkan dalam Tabel 3.2, juga membantu
untuk menjelaskan arti dari setiap kata kerja tindakan.
Dalam beberapa kasus, misalnya di mana item tes yang akan dibangun oleh orang
lain, hal ini diinginkan untuk menggambarkan setiap hasil belajar tertentu dengan
satu atau lebih item uji model. Contoh-contoh yang disajikan pada bagian berikut ini
memberikan berbagai ilustrasi tentang bagaimana hal ini dapat dilakukan. Dalam
berkomunikasi niat instruksional Anda kepada orang lain, tidak ada yang dapat
menyampaikan hasil yang diinginkan sebagai item tes jelas sebagai ilustrasi. Ini
mengasumsikan, tentu saja, bahwa setiap item sampel uji secara langsung relevan
dengan hasil belajar tertentu yang diwakilinya.
Pencocokan Uji Produk untuk Ditujukan Hasil 69

Mempersiapkan item tes yang secara langsung relevan dengan hasil belajar yang
spesifik yang akan diukur terutama soal pencocokan perilaku ditentukan oleh hasil
yang diinginkan dan perilaku diukur dengan item tes. Menyatakan hasil sespesifik
mungkin dan mendefinisikan kata kerja secara lebih rinci keduanya berguna dalam
hal ini, namun proses ini masih menjadi bahan analisis dan penilaian. Jika hasil
belajar tertentu panggilan untuk memasok jawaban (misalnya, nama,
mendefinisikan), item tes juga harus mensyaratkan bahwa jawabannya akan
diberikan (bukan dipilih). Jika hasil belajar tertentu panggilan untuk mengidentifikasi
prosedur, item tes harus peduli hanya dengan proses identifikasi (bukan dengan
hasil yang lebih kompleks). Jika hasil belajar tertentu panggilan untuk melakukan
prosedur, item tes harus memerlukan kinerja yang sebenarnya (bukan deskripsi
verbal bagaimana melakukannya). Isu-isu seperti ini menyoroti perawatan yang
diperlukan dalam menentukan apakah ada kecocokan yang baik antara hasil behaviorally dinyatakan dan respon yang diharapkan ke item tes.
Prosedur untuk membangun item tes akan dipertimbangkan dalam bab-bab
selanjutnya. Di sini, kita hanya berfokus pada pentingnya pencocokan setiap item
tes, sedekat mungkin, dengan hasil belajar tertentu memang ditujukan untuk
mengukur. Contoh-contoh, dari berbagai daerah konten, menggambarkan
pertandingan cukup baik antara hasil yang diharapkan dan item tes. Dalam setiap
contoh, perhatikan bagaimana hasil belajar yang spesifik menggambarkan perilaku
murid adalah untuk menunjukkan dan bagaimana soal tes menyajikan tugas yang
memanggil balik bahwa perilaku tertentu.
contoh
Mendefinisikan istilah umum.. (Matematika Dasar) Arah: Dalam satu atau dua
kalimat, mendefinisikan masing-masing dari kata-kata berikut.
Bunga
Premi
Dividen
Jaminan
Keuntungan
Spesifik Belajar Hasil: Mengidentifikasi prosedur untuk mengkonversi dari satu
ukuran yang lain. (Matematika Dasar)
1. 1. Luas karpet diberikan dalam meter persegi. Bagaimana seharusnya Anda
menentukan
jumlah kaki persegi?

Sebuah Kalikan dengan 3 (B) Kalikan dengan 9 C Bagilah dengan 3 D Bagilah


dengan 9
2. 2. Jumlah susu minuman keluarga dalam satu bulan dinyatakan dalam liter. Anda
harus mengubahnya ke galon?
8 A Kalikan dengan 4 B Kalikan dengan 8 C Divide oleh 4 Divide oleh 8
3. 3. Ruang udara di ruangan yang dinyatakan dalam kaki kubik. Bagaimana
seharusnya Anda
mengubahnya ke meter kubik?
27 Sebuah Kalikan dengan 9 B Kalikan dengan 27 C Bagilah dengan 9 Bagilah
dengan 27
Membedakan antara nilai-nilai relatif dinyatakan dalam fraksi.(Matematika Dasar)
1. 1.

Manakah dari pecahan berikut ini lebih kecil dari satu setengah?

A 2/4 B 4/6 3/8 D 9/16 A 2/4 B 4/6 3/8 D 9/16


2. 2. Manakah dari fraksi berikut menunjukkan nilai terbesar?
2/3 B 4/7 C 5/9 D 9/16 2/3 B 4/7 C 5/9 D 9/16
3. 3.

Manakah dari fraksi berikut memiliki nilai yang sama dengan seperlima?

A 2/20 B 5/50 C 25/75 20/100 A 2/20 B 5/50 C 25/75 20/100


Membedakan fakta dari opini. (Elementary Social (Elementary Sosial
Studies) Studi) 3 3
Arah: Baca setiap pernyataan berikut dengan seksama. Jika Anda pikir pernyataan
itu adalah fakta, lingkaran "F." Jika Anda pikir pernyataan itu adalah pendapat,
lingkaran "O." (F) O 1. Ceorge Washington adalah Presiden pertama Amerika
Serikat.
F 2. Abraham Lincoln adalah presiden terbesar kami.
. (?) O 3. Franklin Roosevelt adalah satu-satunya Presiden yang terpilih ke kantor itu
tiga kali.
Hawaii adalah negara bagian yang paling indah di Amerika Serikat Hasil
Pembelajaran Khusus:. Mengidentifikasi penggunaan umum dari instrumen cuaca.
(Dasar Ilmu)
1. 1. Yang salah satu instrumen berikut digunakan untuk menentukan kecepatan
angin?

Sebuah baling-baling angin (B) Anemometer C Altimeter D Radar


2. 2. Yang salah satu instrumen berikut ini digunakan untuk menentukan jumlah
kelembaban di udara?
A Altimeter B Barometer Hygrometer D Radiosonde A Altimeter B Barometer
Hygrometer D Radiosonde
Hasil Belajar Spesifik: Mengidentifikasi sebab-dan-efek hubungan. (Dasar Ilmu)
Arah: Dalam setiap pernyataan berikut, kedua bagian pernyataan adalah benar.
Anda harus memutuskan apakah bagian kedua menjelaskan mengapa bagian
pertama adalah benar. Jika tidak, lingkari "Ya." Jika tidak, lingkaran "Tidak"
Contoh:
(^ Ea ) No 1. Orang bisa melihat karena mereka memiliki mata. Yes (Ncj) 2. Ya
(NCJ) 2. Orang bisa berjalan karena mereka memiliki senjata.
Dalam contoh pertama, bagian kedua dari pernyataan menjelaskan mengapa
"orang
"sehingga" ya "dilingkari. Dalam contoh kedua, bagian kedua dari pernyataan tidak
menjelaskan mengapa "orang bisa berjalan" sehingga "tidak" dilingkari.
Bacalah setiap pernyataan berikut dan menjawab dengan cara yang sama.
Yes (No) 1. Beberapa ular gurun menetas karena cuaca panas di
dari telur padang pasir.
Tidak ada 2. Spider sangat berguna karena mereka makan berbahaya disekte.
Tidak ada 3. Beberapa tanaman tidak perlu sinar matahari karena mereka
mendapatkan makanan mereka
light dari tanaman lain.
Ya (ada) 4. Air di laut menguap karena mengandung garam. (YEG) No 5. Ikan bisa
mendapatkan oksigen dari karena mereka memiliki insang, air
Spesifik Belajar Hasil: Mengidentifikasi alasan untuk tindakan atau peristiwa.
(Biologi) 1. Yang salah satu dari berikut ini yang terbaik menjelaskan mengapa
ganggang hijau mengeluarkan gelembung oksigen pada cerah, hari yang cerah?
Sebuah Transpirasi
B Flasmolysis Fotosintesis D Osmosis
2. Yang salah satu yang terbaik berikut ini menjelaskan mengapa cetakan roti dapat
tumbuh di ruangan gelap?

(A) Beberapa tanaman tidak menghasilkan makanan mereka sendiri. B Fotosintesis


dapat berlangsung dalam gelap. C Klorofil membantu pertumbuhan tanaman dalam
kegelapan. D Roti cetakan mengambil karbon dioksida dan melepaskan oksigen di
kedua 'gelap dan terang. Hasil Pembelajaran Khusus: Mengidentifikasi relevansi
argumen. (Ilmu Sosial) Arah: Item di bagian tes harus didasarkan pada resolusi
berikut:
MEMUTUSKAN: . Usia suara yang sah di Amerika Serikat harus diturunkan sampai
delapan belas Beberapa pernyataan berikut argumen untuk resolusi, beberapa
argumen terhadap hal itu, dan ada pula yang tidak atau untuk menentang resolusi
itu. Bacalah setiap pernyataan berikut dan lingkaran: F jika argumen untuk resolusi.
A jika argumen terhadap resolusi. N jika tidak untuk atau menentang resolusi itu. (F)
AN 1. Kebanyakan orang secara fisik, emosional, dan intelektual dewasa
pada usia delapan belas tahun.
FA (K) 2. Banyak orang masih bersekolah pada usia delapan belas tahun.
FA 3. Di kebanyakan negara itu legal untuk mengendarai mobil pada usia delapan
belas tahun.
F N 4. Kemampuan untuk memilih cerdas meningkat dengan usia. FA 5.
Jumlah warga delapan belas tahun di Amerika Serikat terus meningkat setiap tahun.
Contoh-contoh ini cukup untuk menunjukkan bagaimana item tes harus
berhubungan dengan hasil belajar yang spesifik. Meskipun semua bidang subjekmateri dan semua jenis hasil belajar tidak terwakili, prinsip dasarnya adalah sama.
Negara hasil pembelajaran yang diinginkan dalam hal perilaku dan memilih atau
mengembangkan item tes yang menimbulkan perilaku tertentu.
BERKAITAN DENGAN PROSEDUR NONTESTING KHUSUS BELAJAR HASIL 72
Ada banyak daerah di mana prosedur pengujian tidak berguna. Dalam
mengevaluasi beberapa keterampilan kinerja (misalnya, bernyanyi, menari,
berbicara), perlu untuk mengamati murid saat ia melakukan dan untuk membuat
penilaian mengenai efektivitas kinerja. Dalam kasus lain, adalah mungkin untuk
mengevaluasi keterampilan murid itu dengan menilai kualitas produk yang
dihasilkan dari penampilannya (misalnya, tema, lukisan, surat diketik, kue
panggang, dan sebagainya). Dalam mengevaluasi penyesuaian sosial murid itu,
mungkin perlu untuk mengamati murid dalam situasi formal dan informal untuk
menilai kecenderungan ke arah agresi atau penarikan, hubungan dengan temantemannya, dan sejenisnya. Bahkan, setiap kali kita tertarik dalam mengevaluasi
bagaimana murid biasanya akan berperilaku dalam situasi, beberapa jenis prosedur
observasional biasanya disebut untuk.
Seperti prosedur pengujian, pemilihan atau pengembangan teknik observasional
harus berkembang dari tujuan dan hasil pembelajaran yang spesifik. Dalam kasus
skala penilaian atau daftar periksa, hasil pembelajaran yang spesifik menjadi

dimensi perilaku untuk diamati. Dalam contoh berikut, perhatikan bagaimana hasil
pembelajaran yang spesifik hanya membutuhkan sedikit modifikasi untuk menjadi
item dalam skala wisatawan:
Pidato
Spesifik Belajar Hasil: Mempertahankan kontak mata yang baik dengan penonton.
Penilaian Skala Item:
Seberapa efektif adalah pembicara dalam mempertahankan kontak mata dengan
penonton?
12345
Tidak efektif bawah rata-rata rata-rata atas rata-rata Sangat Efektif
Menulis tema
Spesifik Belajar Hasil: Mengatur ide-ide dalam cara yang koheren. Rating Scale Item:
Organisasi ide
12345
Poor Miskin Fair Adil Jelas, koheren
organization organisasi organization organisasi organization organisasi
Kerja Kelompok
Spesifik Learning Outcome: Berkontribusi ide-ide bermanfaat untuk diskusi
kelompok. Penilaian Skala Item:
Seberapa sering murid menyumbangkan ide-ide bermanfaat untuk diskusi
kelompok?
12345
Tidak pernah Jarang Kadang-kadang Cukup Sering Sering
Skala penilaian yang lebih lengkap dan daftar periksa disajikan dalam bab-bab
selanjutnya. Ini adalah tujuan kita di sini hanya untuk menggambarkan bagaimana
prosedur nontesting dapat dikaitkan dengan hasil tertentu yang kami ingin
mengevaluasi. Hasil pembelajaran yang spesifik menentukan perilaku untuk diamati
dan skala rating menyediakan metode yang nyaman untuk merekam penilaian
kami. Penilaian semacam itu, tentu saja, masih subyektif, tapi kami telah membuat
mereka seobjektif mungkin dengan jelas mendefinisikan sampel perilaku murid
kami berharap untuk mengamati dan kemudian sengaja mengamati perilaku orangorang dalam murid.

BERKAITAN DENGAN TUJUAN TES STARDARDIZED LOKAL 74


Pentingnya berkaitan teknik evaluasi secara langsung mungkin dengan tujuan
instruksional dan hasil pembelajaran yang spesifik yang akan diukur tidak terbatas
pada perangkat buatan guru. Jenis relevansi juga merupakan pertimbangan utama
ketika memilih tes prestasi standar untuk tujuan instruksional. Idealnya, tes standar
harus mengukur kandungan subyek dan perubahan perilaku yang telah ditekankan
dalam program instruksional. Sejauh mana tes memenuhi cita-cita ini dapat
ditentukan hanya dengan pemeriksaan yang cermat dan sistematis tes.
Dalam menilai relevansi tes standar untuk program pembelajaran, hal ini diinginkan
untuk menganalisis soal tes dengan item. Seperti setiap item dipelajari, catatan
harus dibuat. isi subjek-materi dan perubahan perilaku tampaknya untuk mengukur.
Tabulasi ini nantinya bisa dibandingkan dengan area yang tercakup dalam program
instruksional untuk menentukan sejauh mana cakupan dan penekanan yang
memadai. Jika tabel spesifikasi telah dipersiapkan untuk kursus, analisis uji dapat
dibandingkan secara langsung ke meja.
Kami jarang berharap untuk menemukan tes standar dalam perjanjian sempurna
dengan tujuan dan isi pokok bahasan ditekankan dalam kursus tertentu atau
kurikulum. Namun, analisis item tes akan membantu menentukan seberapa baik tes
benar-benar tidak mengukur apa yang kita ingin mengukur, daerah mana
instruksional yang diabaikan, dan yang daerah menerima terlalu banyak stres.
Informasi ini berguna dalam menafsirkan hasil tes dan dalam mengembangkan
perangkat evaluasi tambahan.
MENGGUNAKAN TES BUATAN PUBLISHED 72
Beberapa penerbit tes telah membangun bank tujuan instruksional dan item tes
yang cocok untuk berbagai mata pelajaran sekolah. Hal ini memungkinkan untuk
memberikan tes yang custom-made untuk menyesuaikan program instruksional
lokal tertentu. Sebuah prosedur khas untuk mendapatkan tes custom-made adalah
sebagai berikut: (1) guru, dan personel sekolah lainnya, pilih dari daftar tujuan yang
mencerminkan hasil yang diharapkan dari program lokal, dan (2) penerbit memilih
tes yang sesuai item dan merakitnya menjadi satu atau lebih bentuk tes. Selain itu,
penerbit juga mungkin memberikan penilaian dan pelaporan layanan khusus.
Tes Custom-made sangat berguna untuk pengujian kriteria-direferensikan karena
mereka dapat dirancang untuk menghasilkan deskripsi dari pengetahuan khusus
dan keterampilan yang siswa peroleh. Mereka juga berguna untuk norma-referenced
testing (peringkat relatif dari murid), namun, karena mereka dapat memberikan
bukti kemajuan murid terhadap tujuan yang lebih kompleks dari program lokal.
Dalam kedua kasus, penting untuk memeriksa tes custom-made dengan hati-hati,
untuk memastikan bahwa setiap item, dan tes secara keseluruhan, memuaskan
mengukur perilaku murid ditentukan dalam tujuan instruksional.

EVALUASI SKALA LUAS 75


Tema utama yang berjalan di seluruh buku ini adalah bahwa evaluasi merupakan
bagian integral dari proses belajar-mengajar dan bahwa hal itu melibatkan dua
langkah dasar: (1) mengidentifikasi dan menentukan tujuan pengajaran, dan (2)
membangun atau memilih instrumen evaluasi yang terbaik menilai tujuan tersebut.
Dengan demikian, penekanan utama kami adalah pada sejauh mana ditentukan
hasil belajar untuk tertentu kursus atau kurikulum telah dicapai. Dalam sebuah
artikel tentang evaluasi dan program perbaikan, Cronbach telah menunjukkan
bahwa ada saat-saat itu mungkin diinginkan untuk mengevaluasi hasil melampaui
orang-orang yang telah ditetapkan untuk program tertentu atau kurikulum. Catatan
ini komentar provokatif. 1
Dalam evaluasi saja, kita tidak perlu banyak khawatir tentang membuat alat ukur
sesuai dengan kurikulum. Namun mengejutkan deklarasi ini mungkin tampak, dan
bagaimanapun bertentangan dengan prinsip-prinsip evaluasi untuk keperluan lain,
ini harus menjadi posisi kita jika kita ingin tahu perubahan apa saja yang
memproduksi dalam pupil. Evaluasi yang ideal akan mencakup langkah-langkah dari
semua jenis kemampuan yang cukup mungkin diinginkan di daerah yang
bersangkutan, bukan hanya hasil yang dipilih yang ini kurikulum mengarahkan
perhatian besar. Jika Anda hanya ingin tahu seberapa baik kurikulum adalah
mencapai nya tujuan, Anda cocok tes dengan kurikulum; tetapi jika Anda ingin
mengetahui seberapa baik kurikulum adalah melayani kepentingan nasional, Anda
mengukur semua hasil yang mungkin layak diperjuangkan. Salah satu mata
pelajaran matematika baru mungkin mengingkari setiap upaya untuk mengajar
trigonometri numerik, dan memang, mungkin membuang pekerjaan hampir semua
komputasi. Hal ini masih sangat masuk akal untuk bertanya seberapa baik lulusan
kursus dapat menghitung dan dapat memecahkan segitiga siku-siku. Bahkan jika
pengembang saja pergi sejauh untuk bersaing bahwa keterampilan komputasi ada
tujuan yang tepat dari instruksi sekunder, mereka akan menghadapi pendidik dan
orang awam yang tidak berbagi pandangan mereka. Jika dapat menunjukkan bahwa
siswa yang datang melalui program baru yang cukup mahir dalam perhitungan
meskipun kurangnya pengajaran langsung, yang ragu-ragu akan diyakinkan. Jika
tidak, bukti membuat jelas berapa banyak yang dikorbankan.
Meskipun komentar ini langsung berkaitan dengan evaluasi skala besar proyekproyek perbaikan kurikulum, ide dasar umumnya
i LI Cronbach, "Improvement Course melalui Evaluasi," Teachers College Rekam 64,
680, 1963 [Dicetak ulang di NE Gronlund (ed.),. Bacaan dalam Pengukuran dan
Evaluasi . (New York: Macmillan, 1968)] yang berlaku. Untuk beberapa tujuan,
mungkin tepat untuk menentukan kemajuan murid terhadap tujuan selain yang
ditentukan untuk kursus atau kurikulum. Seorang guru bahasa Inggris, misalnya,
mungkin tidak melakukan pengajaran langsung dari tata bahasa, tapi masih tertarik
dalam mengukur kemampuan murid dalam tata bahasa. Demikian pula, seorang

guru sains mungkin tidak mempertimbangkan ejaan suatu hasil yang diinginkan
ilmu pengetahuan, tapi masih tertarik dalam menentukan seberapa baik murid bisa
mengeja istilah ilmiah yang lebih kompleks. Itu selalu yang sah untuk bertanya
berapa banyak belajar insidental berlangsung, atau sebagai Cronbach telah
menunjukkan, berapa banyak yang dikorbankan di daerah-daerah tidak menerima
pengajaran langsung.
Ketika mengevaluasi pada skala yang lebih luas, proses yang berkaitan dengan
prosedur evaluasi hasil belajar pada dasarnya sama. Namun, dalam kasus ini, tentu
saja, diperlukan untuk menghubungkan instrumen evaluasi secara langsung
mungkin untuk semua dari hasil yang akan diukur; bukan hanya orang-orang yang
telah diidentifikasi sebagai hasil yang diharapkan dari instruksi.
RINGKASAN 76
Tujuan instruksional akan berfungsi paling efektif dalam evaluasi kelas jika upaya
sadar dibuat untuk menghubungkan prosedur evaluasi terhadap hasil pembelajaran
yang spesifik dicakup oleh masing-masing tujuan. Upaya ini dapat difasilitasi oleh
(1) rencana umum evaluasi, (2) tabel spesifikasi, dan (3) pilihan teknik evaluasi
yang mengukur setiap hasil belajar paling dekat.
Sebuah rencana evaluasi umum terdiri dari daftar semua tujuan instruksional umum
dan hasil pembelajaran yang spesifik dengan indikasi jenis teknik evaluasi yang
akan digunakan untuk setiap hasil yang diinginkan. Untuk tujuan pengajaran,
metode yang akan digunakan dalam mencapai tujuan juga dapat dimasukkan.
Pengembangan rencana evaluasi umum menjamin bahwa ketentuan telah dibuat
untuk mengevaluasi semua tujuan instruksional dan peringatan guru untuk jenisjenis informasi evaluatif yang harus dikumpulkan secara berkala selama semester.
Sebuah tabel spesifikasi ini sangat berguna dalam perencanaan untuk evaluasi
kelas. Ini adalah bagan dua arah yang menghubungkan tujuan instruksional tentu
saja dengan isi subject-matter yang digunakan untuk mencapai tujuan. Ini panduan
guru dalam membangun tes dan instrumen evaluasi lain yang mengukur hasil yang
diharapkan dari instruksi secara seimbang.
Langkah yang paling penting dalam berhubungan prosedur evaluasi untuk tujuan
instruksional adalah dalam pemilihan, atau konstruksi, teknik evaluasi khusus untuk
digunakan. Dalam kasus kedua item tes dan instrumen evaluasi nontest, upaya
terpadu harus dilakukan untuk mendapatkan sampel perilaku murid yang mirip
dengan perilaku yang dijelaskan dalam hasil pembelajaran yang spesifik.
Pencocokan perilaku tes untuk hasil yang dimaksudkan dapat ditingkatkan dengan
lebih mendefinisikan kata kerja yang digunakan dalam hasil pembelajaran yang
spesifik dan dengan mengambil perawatan khusus ketika menilai korespondensi
antara respon tes diharapkan dan hasilnya perilaku menyatakan itu dirancang untuk
mengukur.

Dalam beberapa kasus, kita mungkin akan tertarik dalam menentukan sejauh mana
program atau kurikulum yang memodifikasi perilaku murid di daerah selain yang ke
arah mana pengajaran diarahkan. Hal ini memerlukan prosedur evaluasi yang
melampaui hasil yang diharapkan dari instruksi, tetapi prinsip dasar yang berkaitan
instrumen evaluasi sedekat mungkin dengan hasil yang akan diukur masih relevan.
BELAJAR LATIHAN
Apa keuntungan dan keterbatasan termasuk metode pengajaran dalam rencana
evaluasi umum (sebagai Mr Whiteside lakukan)?
Apa keuntungan dari termasuk semua tujuan instruksional umum dalam tabel
spesifikasi, bukan hanya mereka yang dapat diukur dengan tes kertas dan pensil?
Apakah ada kerugian?
Jelaskan faktor yang harus dipertimbangkan ketika menentukan berapa banyak item
tes untuk mengabdikan untuk setiap tujuan instruksional, dan untuk setiap bidang
konten, selama persiapan tabel spesifikasi.
Langkah-langkah apa yang dapat diambil untuk lebih memastikan bahwa item
dalam tes kelas akan menimbulkan tanggapan yang sesuai? Bisakah kita pernah
yakin bahwa kami memiliki pertandingan yang sempurna antara tes barang dan
hasil dimaksudkan?
Pilih sebuah bab dalam buku teks di daerah mengajar Anda dan lakukan hal berikut:
a. a. Daftar bidang utama dari konten yang dibahas dalam bab ini.
b. b. Daftar beberapa hasil pembelajaran umum (misalnya, Knows istilah).
c. c. Buatlah sebuah tabel spesifikasi untuk uji dua puluh item pada materi
dalam bab ini (termasuk metode evaluasi lainnya, jika sesuai).
Apa keuntungan relatif dari menggunakan tes custom-made diterbitkan bukan tes
standar untuk mengukur belajar murid? Apa kerugiannya?
Bagaimana mungkin sebuah tabel spesifikasi digunakan dalam memilih tes standar?
Di daerah mengajar Anda sendiri, mengutip contoh di mana Anda mungkin ingin
mengukur hasil belajar di luar yang ditentukan untuk kursus tertentu.
Apa jenis metode pengujian atau evaluasi akan menjadi yang terbaik untuk masingmasing hasil sebagai berikut? Why? Mengapa?
a. a. Menunjukkan kebiasaan belajar yang baik.
b. b. Menafsirkan pilihan puisi.
c. c. Menarik kesimpulan dari bahan tertulis.

d. d. Mengidentifikasi gagasan utama dalam paragraf.


e. e. Berhubungan baik dengan rekan-rekannya.
f. f. Menjelaskan cara mengatur peralatan laboratorium.
10. 10. Apa jenis masalah dapat ditanggulangi di daerah mengajar Anda jika Anda
tidak dapat menggunakan tes kertas dan pensil apapun? Apa evaluasi procedures yang akan Anda gunakan? Bagaimana Anda akan berhubungan prosedur ini
untuk Anda
hasil belajar dimaksudkan?
SARAN UNTUK BACAAN LEBIH LANJUT
Bloom, BS, J. T. Hastincs , dan G F. Madaus. Handbook on formatif dan sumatif
Evaluasi Belajar Mahasiswa. New York: McGraw-Hill Book Company, . 1971 Bagian
kedua berisi sebelas bab yang menggambarkan bagaimana item tes dan berbagai
evaluasi instrumen terkait dengan hasil belajar dalam berbagai bidang studi.
Gbonlund , NE Menyatakan Tujuan Behavioral untuk Instruksi Kelas. New York:
Macmillan Publishing Co, Inc, . 1970 Bab 7, ". Menggunakan Tujuan Instruksional di
Persiapan Tes" Termasuk daftar tujuan, tabel spesifikasi, dan item sampel kunci
untuk tujuan untuk unit di bidang ekonomi.
Morse, H. T., dan G. H. McCune. Item yang Dipilih untuk Pengujian Keterampilan
Belajar dan Berpikir Kritis.. Washington, DC: Dewan Nasional untuk Ilmu Sosial, .
1971 Berisi berbagai ilustrasi item tes kunci untuk hasil belajar dalam kemampuan
belajar dan area berpikir kritis.
Noll , V. H., dan D. P. Scannell. Pengantar Pendidikan Pengukuran, 3rd ed. Boston:
Houghton Mifflin Company, 1972. Bab 6, "Tujuan Sebagai Dasar Pengukuran All
Good." Lihat terutama bagian terakhir dari bab ini, di mana berbagai jenis item tes
dikunci untuk tujuan khusus.
Synd , RB, dan A. J. Picard. Tujuan Perilaku dan Tindakan Evaluasi: Sains dan
Matematika. Columbus, Ohio: Charles E. Merrill Penerbit, . 1972 Bab 10, ". Tujuan
Kognitif Contoh dan Ukuran Prestasi" Bab ini menyajikan lima puluh halaman item
tes sampel kunci untuk tujuan ilmu pengetahuan dan matematika di sekolah dasar,
SMP, dan tingkat SMA.
Lihat juga taksonomi buku oleh Bloom (1956), Harrow (1972), dan Krath-wohl,
Bloom , dan Masia (1964), dalam daftar bacaan di akhir Bab 2, untuk ilustrasi
bagaimana prosedur evaluasi terkait dengan berbagai hasil pendidikan.

BAB 4
VALIDITY KEABSAHAN
Dalam memilih atau membangun instrumen evaluasi pertanyaan yang paling
penting adalah: Sejauh mana hasil akan melayani penggunaan tertentu yang
mereka dimaksudkan? Ini adalah esensi dari validitas.

Banyak aspek perilaku murid dievaluasi di sekolah, dan hasilnya diharapkan untuk
melayani berbagai penggunaan. Misalnya, prestasi dapat dievaluasi untuk
mendiagnosis kesulitan belajar atau untuk menentukan kemajuan menuju tujuan
instruksional; bakat skolastik dapat diukur untuk memprediksi keberhasilan dalam
kegiatan pembelajaran masa depan atau untuk murid kelompok untuk tujuan
instruksional; dan penilaian pengembangan pribadi-sosial dapat diperoleh dalam
rangka untuk lebih memahami siswa atau untuk layar mereka untuk rujukan ke
seorang konselor bimbingan. Terlepas dari area perilaku sedang dievaluasi,
bagaimanapun, atau penggunaan yang akan dibuat dari hasil, semua dari berbagai
prosedur yang digunakan dalam program evaluasi harus memiliki karakteristik
umum tertentu. Yang paling penting dari karakteristik ini dapat diklasifikasikan di
bawah judul validitas, reliabilitas, dan kegunaan.
Validitas mengacu pada sejauh mana hasil dari prosedur evaluasi melayani
penggunaan tertentu yang mereka dimaksudkan. Jika hasilnya digunakan untuk
menggambarkan prestasi murid, kita harus seperti mereka untuk mewakili
pencapaian tertentu yang kami ingin menjelaskan, untuk mewakili semua aspek
pencapaian kita ingin menjelaskan, dan untuk mewakili apa-apa lagi. Keinginan kita
dalam hal ini serupa dengan pengacara pembela di ruang sidang yang
menginginkan kebenaran, seluruh kebenaran, dan apa-apa selain kebenaran. Jika
hasilnya digunakan untuk memprediksi keberhasilan murid dalam beberapa
aktivitas masa depan, kita harus seperti mereka untuk memberikan akurat
perkiraan kesuksesan masa depan mungkin. Pada dasarnya, kemudian, validitas
selalu peduli dengan penggunaan khusus t0 terbuat dari hasil evaluasi dan dengan
tingkat kesehatan interpretasi yang diusulkan kami.
Keandalan mengacu pada konsistensi hasil evaluasi. Jika kita memperoleh skor
sangat mirip ketika tes yang sama diberikan kepada kelompok yang sama pada dua
kesempatan yang berbeda, kita dapat menyimpulkan bahwa hasil kami memiliki
tingkat kehandalan yang tinggi dari satu kesempatan ke yang lain. Demikian pula,
jika guru yang berbeda secara independen menilai murid yang sama pada
instrumen yang sama dan memperoleh penilaian setara, kita dapat menyimpulkan
bahwa hasil memiliki tingkat kehandalan yang tinggi dari satu penilai yang lain.
Seperti dengan validitas, reliabilitas erat terkait dengan jenis interpretasi yang akan
dibuat. Untuk beberapa penggunaan, kita mungkin tertarik untuk menanyakan
bagaimana diandalkan hasil evaluasi kami selama periode waktu tertentu, dan
untuk orang lain, bagaimana mereka dapat diandalkan dibandingkan dengan
sampel dari perilaku yang sama. Dalam semua kasus di mana keandalan sedang
ditentukan, bagaimanapun, kita prihatin dengan konsistensi dari hasil, bukan
dengan sejauh mana mereka melayani penggunaan khusus dalam pertimbangan.
Meskipun keandalan adalah kualitas yang sangat diinginkan, perlu dicatat bahwa
kehandalan tidak memberikan jaminan bahwa hasil evaluasi akan menghasilkan
informasi yang diinginkan. Seperti saksi memberikan kesaksian di ruang sidang
trial "fakta bahwa ia konsisten menceritakan kisah yang sama tidak menjamin

bahwa ia mengatakan yang sebenarnya. Kebenaran pernyataannya dapat


ditentukan hanya dengan membandingkan mereka dengan beberapa bukti lain.
Demikian pula, dengan hasil evaluasi konsistensi adalah kualitas penting tetapi
hanya jika disertai dengan bukti validitas, dan yang harus ditentukan secara
independen. Sedikit yang dicapai jika hasil evaluasi secara konsisten memberikan
informasi yang salah. Singkatnya, kehandalan adalah penting, namun bukan suatu
kondisi yang cukup untuk validitas.
Selain memberikan hasil yang memiliki tingkat yang memuaskan validitas dan
reliabilitas, prosedur evaluasi harus memenuhi persyaratan praktis tertentu. Ini
harus ekonomis dari sudut pandang waktu dan uang, itu harus mudah dikelola dan
mencetak gol, dan harus memberikan hasil yang dapat secara akurat ditafsirkan
dan diterapkan oleh personel sekolah yang tersedia. Aspek-aspek praktis dari
prosedur evaluasi semua dapat dimasukkan di bawah judul kegunaan. Istilah
kegunaan, maka, hanya mengacu pada kepraktisan prosedur dan menyiratkan apaapa tentang kualitas lain yang hadir.
Dalam bab ini kita akan membahas validitas hasil evaluasi, dan dalam bab berikut
kita akan mengalihkan perhatian kita untuk keandalan dan kegunaan.
SIFAT VALIDITAS 80
Bila menggunakan istilah validitas, dalam kaitannya dengan pengujian dan evaluasi,
ada sejumlah peringatan yang harus diingat.
Validitas berkaitan dengan hasil tes, atau instrumen evaluasi, dan bukan untuk
instrumen itu sendiri. Kita kadang-kadang berbicara tentang validitas tes demi
kenyamanan, tetapi lebih tepat untuk berbicara tentang keabsahan hasil pengujian,
atau lebih khusus, validitas interpretasi yang akan dibuat dari hasil.
Validitas adalah masalah derajat. Itu tidak ada secara all-or-none. Akibatnya, kita
harus menghindari memikirkan hasil evaluasi yang valid atau tidak valid. Validitas
paling dipertimbangkan dalam hal kategori yang menentukan derajat, seperti
validitas yang tinggi, validitas moderat, dan validitas rendah.
Validitas selalu spesifik untuk beberapa penggunaan tertentu. Ini tidak boleh
dianggap sebagai kualitas umum. Sebagai contoh, hasil tes aritmatika mungkin
memiliki tingkat tinggi validitas untuk menunjukkan keterampilan komputasi,
tingkat rendah untuk menunjukkan validitas penalaran ilmu hitung, tingkat moderat
validitas untuk memprediksi keberhasilan dalam mata pelajaran matematika di
masa depan, dan tidak ada validitas untuk memprediksi keberhasilan dalam seni
atau musik. Dengan demikian, ketika menilai atau menggambarkan validitas, maka
perlu untuk mempertimbangkan penggunaan harus dibuat dari hasil. Hasil evaluasi
tidak pernah sah-sah saja; mereka memiliki tingkat yang berbeda dari validitas
untuk setiap interpretasi tertentu yang akan dibuat.

JENIS VALIDITAS 81
Tiga tipe dasar validitas telah diidentifikasi dan sekarang umum digunakan dalam
pengukuran pendidikan dan psikologis. 1 Mereka adalah: konten validitas, -kriteria
yang terkait validitas, dan membangun validitas. Makna umum jenis validitas
ditunjukkan dalam Tabel 4.1. Setiap jenis akan dijelaskan lebih lengkap sebagai
hasil bab. Demi kejelasan, diskusi akan terbatas pada validitas yang berkaitan
dengan prosedur pengujian. Harus diakui, bagaimanapun, bahwa ketiga jenis
validitas juga berlaku untuk semua berbagai jenis alat evaluasi yang digunakan
dalam sekolah.
Konten Validitas
1 American Psychological Association, Standar Pendidikan dan Tes Psikologi
(Washington, DC: APA, 1974).
Isi kursus atau kurikulum dapat didefinisikan secara luas untuk mencakup baik isi
pelajaran-materi dan tujuan instruksional. Yang pertama adalah berkaitan dengan
topik, atau area subyek, yang akan dibahas, dan yang terakhir dengan perubahan
perilaku dicari dalam murid. Kedua aspek konten menjadi perhatian dalam
menentukan validitas isi. Kita harus seperti setiap tes prestasi kita membangun,
atau pilih, untuk memberikan hasil yang mewakili topik dan perilaku kita ingin
mengukur. Ini adalah esensi dari validitas isi. Lebih formal, validitas isi dapat
didefinisikan sebagai sejauh mana tes mengukur sampel yang representatif

TABEL 4.1
Meaning Makna
tiga jenis validitas
Procedure Prosedur
Bandingkan isi tes untuk alam semesta konten dan perilaku yang akan diukur
Bandingkan nilai tes dengan ukuran lain kinerja yang diperoleh di kemudian hari
(untuk prediksi) atau dengan ukuran lain kinerja yang diperoleh secara bersamaan
(untuk memperkirakan status sekarang)
Eksperimental menentukan faktor-faktor apa nilai pengaruh pada tes
jumlah waktu yang dihabiskan untuk masing-masing daerah selama instruksi,
filosofi sekolah, pendapat para ahli di daerah, dan kriteria yang sama.
Sebuah tabel spesifikasi, seperti yang disajikan dalam Bab 3, dibangun dari daftar
tertimbang topik subjek-materi dan diharapkan perubahan perilaku. Tabel ini, maka,
menentukan penekanan relatif tes harus memberikan kepada setiap topik pokok
bahasan dan setiap jenis perubahan perilaku.
Tes prestasi dibangun, atau dipilih, sesuai dengan tabel spesifikasi. Semakin dekat
tes sesuai dengan spesifikasi yang ditunjukkan dalam tabel, semakin besar
kemungkinan bahwa tanggapan siswa 'untuk menguji akan memiliki tingkat tinggi
validitas isi.
Sebuah tabel spesifikasi, dalam bentuk yang sangat sederhana, disajikan pada Tabel
4.2 untuk menggambarkan bagaimana meja tersebut digunakan untuk memeriksa
validitas isi. Persentase dalam tabel menunjukkan tingkat relatif penekanan setiap
mata pelajaran-materi dan setiap jenis perubahan perilaku harus diberikan dalam
ujian. Jadi, jika tes ini adalah untuk mengukur sampel yang representatif dari isi
subject-matter, 15 persen dari item tes harus peduli dengan tanaman, 15 persen
dengan hewan, 30 persen dengan cuaca, 15 persen
TABEL 4.2
tabel yang menunjukkan penekanan relatif untuk civen ke berbagai daerah subyek
dan kemungkinan perilaku untuk tes dalam ilmu sekolah dasar
Perubahan Perilaku (dalam Persentase)
Bidang
Keahlianmateri

Memahami Berlaku
Konsep
Konsep

Total
Total

Plants
Tanaman

10 10

55

15 15

Animals
Hewan

10 10

55

15 15

Weather
Cuaca

15 15

15 15

30 30

Earth Bumi

55

10 10

15 15

Sky Langit

10 10

15 15

25 25

Total Total

50 50

50 50

100
100

dengan bumi, dan 25 persen dengan langit. Jika tes ini adalah untuk mengukur
sampel yang representatif dari perubahan perilaku, 50 persen dari barang-barang
yang harus mengukur "pemahaman konsep," dan 50 persen harus mengukur
"penerapan konsep." Ini, tentu saja, menyiratkan bahwa penekanan khusus pada
"pemahaman" dan "aplikasi" untuk masing-masing mata pelajaran-materi yang
akan mengikuti ditunjukkan dengan persentase di tabel spesifikasi. Misalnya, 10
persen dari item tes yang bersangkutan dengan tanaman harus mengukur
"pemahaman konsep," dan 5 persen dari item tes harus mengukur "penerapan
konsep."
Perlu dicatat bahwa prosedur ini hanya memberikan cek kasar
pada validitas isi. Analisis tersebut mengungkapkan jelas relevansi dari item tes
untuk bidang subjek-materi dan perubahan perilaku yang akan diukur. Validitas isi
prihatin dengan sejauh mana item tes sebenarnya menimbulkan tanggapan diwakili
dalam tabel spesifikasi. Item tes mungkin muncul untuk mengukur "pemahaman"
tapi tidak berfungsi sebagaimana dimaksud karena cacat pada item, arah jelas,
kosakata yang tidak pantas, atau kondisi pengujian tidak terkontrol. Dengan
demikian, validitas isi tergantung pada sejumlah faktor selain relevansi nyata dari
item tes. Sebagian besar dari apa yang tertulis dalam buku ini mengenai konstruksi
dan seleksi tes prestasi diarahkan meningkatkan validitas isi dari hasil yang
diperoleh.
Meskipun pembahasan kita tentang validitas isi telah terbatas pada pengujian
prestasi, validitas isi juga dari beberapa kekhawatiran masuk pengukuran bakat,
minat, sikap, dan penyesuaian pribadi-sosial. Sebagai contoh, jika kita memilih
inventarisasi bunga kita harus seperti itu untuk menutupi aspek-aspek kepentingan
dengan yang kita prihatin. Demikian pula, skala sikap harus mencakup topik-topik
sikap yang sesuai dengan tujuan kita ingin mengukur. Prosedur di sini pada
dasarnya sama seperti yang di tes prestasi. Ini adalah masalah menganalisis bahan
uji dan hasil yang akan diukur dan menilai tingkat korespondensi antara mereka.

Kriteria terkait Validitas 84


Setiap kali nilai tes yang akan digunakan untuk memprediksi kinerja masa depan
atau untuk memperkirakan kinerja saat ini pada beberapa ukuran dihargai selain
tes itu sendiri, kita prihatin dengan validitas-kriteria terkait. Misalnya, membaca
kesiapan skor tes dapat digunakan untuk memprediksi murid 'prestasi masa depan
dalam membaca, atau tes keterampilan kamus dapat digunakan untuk
memperkirakan murid keterampilan saat ini dalam penggunaan aktual dari kamus
(sebagaimana ditentukan oleh pengamatan). Dalam contoh pertama, kami tertarik
prediksi dan dengan demikian dalam hubungan antara dua ukuran selama jangka
waktu. Jenis validitas disebut prediktif validitas. Pada contoh kedua, kami tertarik
untuk memperkirakan status sekarang dan dengan demikian dalam hubungan
antara dua ukuran yang diperoleh secara bersamaan. Sebuah hubungan yang tinggi
dalam hal ini akan menunjukkan bahwa tes keterampilan kamus adalah indikator
yang baik dari kemampuan sebenarnya dalam penggunaan kamus. Prosedur ini
untuk menentukan validitas disebut bersamaan validitas. Pada uji baru Standar, 1
sebutan validitas prediktif dan validitas konkuren telah dimasukkan di bawah
category lebih umum " -kriteria yang terkait validitas. Hal ini tampaknya menjadi
pengaturan yang diinginkan karena metode untuk menentukan dan
mengungkapkan validitas adalah sama dalam kedua kasus. Perbedaan utama
terletak pada jangka waktu antara dua ukuran yang diperoleh.
Validitas-kriteria yang terkait dapat didefinisikan sebagai sejauh mana hasil tes
terkait dengan beberapa ukuran dihargai lain dari kinerja. Seperti disebutkan
sebelumnya, ukuran kedua kinerja dapat diperoleh di beberapa tanggal masa depan
(ketika kita tertarik dalam memprediksi kinerja masa depan) , atau bersamaan
(ketika kita tertarik dalam memperkirakan kinerja sekarang). Pertama mari kita
memeriksa penggunaan validitas-kriteria terkait dari sudut pandang memprediksi
keberhasilan dalam beberapa aktivitas masa depan. Kemudian kita akan kembali ke
penggunaan kedua.
Memprediksi Kinerja Masa Depan. Misalkan bahwa Mr Young, seorang guru SMP,
ingin menentukan seberapa baik nilai dari tes bakat skolastik tertentu memprediksi
keberhasilan dalam kelas tujuh kelas aritmatika nya. Karena tes bakat skolastik
diberikan kepada semua siswa ketika mereka masuk SMP, nilai ini sudah tersedia
untuk Mr Young. Masalah terbesarnya adalah memutuskan pada kriteria sukses
prestasi aritmatika. Karena kurangnya kriteria yang lebih baik, Pak Young
memutuskan untuk menggunakan pemeriksaan departemen komprehensif yang
diberikan kepada berbagai bagian aritmatika kelas tujuh pada akhir tahun ajaran.
Sekarang mungkin untuk Mr Young untuk menentukan seberapa baik bakat skor tes
skolastik memprediksi kesuksesan di kelas aritmatika dengan membandingkan nilai
tes skolastik bakat murid dengan nilai mereka pada ujian departemen. Apakah
mereka siswa yang memiliki skor tes bakat skolastik yang tinggi juga cenderung
memiliki skor tinggi pada pemeriksaan departemen? Apakah mereka yang memiliki
skor tes skolastik bakat rendah juga cenderung memiliki skor rendah pada

pemeriksaan departemen? Jika hal ini terjadi, Mr Young cenderung setuju bahwa
skolastik skor tes bakat cenderung akurat dalam memprediksi prestasi di kelas
aritmatika ini. Singkatnya, ia mengakui bahwa hasil tes memiliki validitas-kriteria
terkait.
Dalam ilustrasi kami, Pak Young hanya diperiksa bakat nilai tes skolastik dan skor
tes prestasi untuk menentukan kesepakatan di antara mereka. Meskipun ini
mungkin menjadi langkah awal yang diinginkan, itu jarang cukup untuk
menunjukkan validitas kriteria terkait. Prosedur yang biasa adalah berkorelasi
statistik dua set nilai dan melaporkan derajat hubungan antara mereka dengan
menggunakan koefisien korelasi. -ini memungkinkan validitas yang akan disajikan
dalam hal yang tepat dan universal dipahami. Mereka, tentu saja, "universal
dipahami" hanya oleh mereka yang memahami dan dapat menginterpretasikan
koefisien korelasi. Hal ini akan menimbulkan masalah yang besar, namun, karena
makna koefisien korelasi dapat dengan mudah ditangkap oleh orang-orang yang
keterampilan komputasi berlangsung tidak lebih dari itu aritmatika sederhana.
Peringkat-Perbedaan Korelasi. Untuk memperjelas perhitungan dan interpretasi
koefisien korelasi, mari kita mempertimbangkan nilai yang tepat murid Mr Young
diterima pada kedua tes bakat skolastik dan pemeriksaan departemen dalam
aritmatika. Informasi ini disediakan dalam dua kolom pertama dari Tabel 4.3.
Dengan memeriksa dua kolom skor, sebagai Mr Muda lakukan, adalah mungkin
untuk dicatat bahwa nilai yang tinggi pada Kolom 1 cenderung untuk pergi

pergeseran dalam urutan peringkat dari satu tes ke tes lain. Masalah kita
sekarang isa "Bagaimana kita bisa mengekspresikan derajat hubungan antara dua
set peringkat dalam hal yang berarti? Di sinilah koefisien korelasi menjadi berguna.
Peringkat-perbedaan korelasi hanyalah sebuah metode untuk mengungkapkan
derajat hubungan antara dua set peringkat. Langkah-langkah dalam menentukan
koefisien korelasi rank-perbedaan disajikan di buku komputasi berikut. 2 Pak Data
Young, pada Tabel 4.3, yang digunakan untuk menggambarkan
Steps Tangga
komputasi-guide: rank-perbedaan korelasi
Kolom 1 dan 2 Kolom 3 dan 4
Kolom 5
Kolom 6
Bawah Kolom 6 6 X 532
P = lP (rho) = 1
20 (20 2 - 1) 3192
=17980 1-0,40 .60
Hasil pada Tabel 4.3
dengan nilai yang tinggi pada Kolom 2. Perbandingan ini sulit untuk membuat,
namun, karena ukuran dari nilai tes dalam dua kolom yang berbeda.
Kesepakatan dua set nilai dapat lebih mudah dilakukan jika nilai tes dikonversi ke
jajaran. Hal ini telah dilakukan dalam Kolom 3 dan 4 dari Tabel 4.3. Perhatikan
bahwa murid yang pertama pada tes bakat peringkat ketiga pada tes aritmatika;
murid yang kedua pada tes bakat peringkat keempat pada tes aritmatika; murid
yang ketiga pada tes bakat peringkat keenam pada tes aritmatika; and so on. dan
seterusnya. Membandingkan urutan peringkat dari murid di dua tes, seperti yang
ditunjukkan dalam Kolom 3 dan 4 dari Tabel 4.3, memberi kita gambaran yang
cukup baik dari hubungan antara dua set nilai. Dari pemeriksaan ini kita tahu bahwa
murid yang memiliki kedudukan tinggi pada tes bakat juga memiliki kedudukan
yang tinggi pada tes aritmatika, dan murid yang memiliki kedudukan rendah pada
tes bakat juga memiliki kedudukan yang rendah pada tes aritmatika. Pemeriksaan
kami Kolom 3 dan 4 juga menunjukkan kepada kita, bagaimanapun, bahwa
hubungan antara jajaran murid pada dua tes tidak sempurna. Ada beberapa

prosedur. Ini akan dicatat bahwa surat rho Yunani ( P ) digunakan untuk
mengidentifikasi koefisien korelasi rank-order. Dari perhitungan kami untuk data Mr
Young kita menemukan bahwa P = .60. Koefisien korelasi ini adalah ringkasan
statistik dari tingkat hubungan antara dua set nilai dalam data Mr Young. Dalam
contoh khusus ini, ini menunjukkan sejauh mana jatuhnya nilai tes bakat (prediktor)
merupakan prediksi musim semi aritmatika nilai ujian (kriteria). Singkatnya,
mengacu pada validitas-kriteria terkait bakat skor tes.
Seberapa baik adalah validitas koefisien Mr Young .60? Haruskah Pak Young akan
senang dengan temuan ini atau haruskah dia kecewa? Apakah tes ini bakat tertentu
memberikan prediksi yang baik kinerja masa depan dalam aritmatika?
Sayangnya, jawaban sederhana dan mudah tidak dapat diberikan atas pertanyaanpertanyaan tersebut. Interpretasi koefisien korelasi tergantung

pada informasi dari berbagai sumber. Pertama, kita tahu bahwa koefisien
korelasi berikut menunjukkan derajat ekstrim hubungan bahwa adalah mungkin
untuk mendapatkan antara variabel:
1.00 = hubungan positif sempurna .00 = ada hubungan "1,00 = sempurna
hubungan negatif
Karena koefisien validitas Mr Young adalah .60, kita tahu bahwa hubungan yang
positif tapi agak kurang sempurna. Jelas, semakin dekat koefisien validitas
pendekatan 1.00 bahagia kita dengan itu karena koefisien validitas lebih besar
menunjukkan akurasi yang lebih besar dalam memprediksi dari satu variabel yang
lain. 3
Cara lain untuk mengevaluasi validitas koefisien Mr Young dari .60 adalah untuk
membandingkannya dengan koefisien validitas yang diperoleh dengan metode lain
memprediksi kinerja dalam aritmatika. Jika koefisien validitas ini lebih besar dari
yang diperoleh dengan prosedur prediksi lain, Pak Young akan terus menggunakan
tes bakat skolastik. Sebagai cara terbaik yang tersedia baginya untuk memprediksi
kinerja aritmatika muridnya. Dengan demikian, koefisien validitas yang besar atau
kecil hanya dalam hubungan satu sama lain. Dimana validitas-kriteria terkait
merupakan pertimbangan penting, kita akan selalu mempertimbangkan lebih
menguntungkan tes dengan koefisien validitas terbesar. Dalam hal ini, bahkan tes
bakat dengan validitas agak rendah mungkin berguna, namun, jika mereka adalah
prediktor terbaik yang tersedia, dan prediksi mereka berikan adalah lebih baik
daripada kesempatan. 4
Mungkin cara termudah menangkap makna praktis dari koefisien korelasi adalah
untuk dicatat bagaimana akurasi prediksi meningkat sebagai koefisien korelasi
menjadi lebih besar. Hal ini ditunjukkan dalam berbagai grafik yang disajikan dalam
Tabel 4.4. Baris-baris di setiap grafik mewakili perempat kelompok pada beberapa
prediktor (seperti tes bakat skolastik) dan kolom menunjukkan persentase orang
yang jatuh di setiap keempat pada ukuran kriteria (seperti tes prestasi). Pertama
perhatikan bahwa untuk koefisien korelasi .00, berada di atas pada kuartal prediktor
tersebut tidak memberikan dasar untuk memprediksi di mana seseorang mungkin
jatuh pada ukuran kriteria. Peluangnya untuk jatuh setiap kuartal sama-sama baik.
Sekarang beralih ke grafik untuk koefisien korelasi .60. Perhatikan, di sini, bahwa
jika seseorang jatuh pada kuartal atas pada prediktor, ia memiliki 54 peluang emas
dari 100 jatuh di kuartal teratas pada ukuran kriteria, 28 peluang emas dari 100
jatuh pada kuartal kedua, 14 peluang dari 100 jatuh pada kuartal ketiga, dan hanya
4 peluang emas dari 100 jatuh pada kuartal bawah. Sisa dari grafik dibaca dengan
cara yang sama.
Dengan membandingkan grafik untuk koefisien korelasi yang berbeda-ukuran,
adalah mungkin untuk mendapatkan beberapa merasakan arti dari koefisien
korelasi dalam hal efisiensi prediksi. Sebagai koefisien korelasi menjadi lebih besar,

kemungkinan seseorang berada di triwulan yang sama pada ukuran kriteria seperti
dia berada di prediktor yang meningkat. Hal ini dapat dilihat dengan melihat entri di
sel diagonal. Dengan koefisien korelasi 1,00, masing-masing sel diagonal akan,
tentu saja, mengandung 100 persen dari Casesa "menunjukkan prediksi yang
sempurna dari satu ukuran yang lain.
Memperkirakan Hadir Kinerja. Sampai titik ini kita telah menekankan peran
validitas-kriteria terkait dalam memprediksi kinerja masa depan. Meskipun ini
mungkin penggunaan utama, ada kalanya kita tertarik dalam hubungan kinerja tes
untuk beberapa ukuran lainnya saat ini kinerja. Dalam hal ini, kita akan
mendapatkan kedua langkah kira-kira pada waktu yang sama dan mengkorelasikan
hasil. Hal ini umumnya dilakukan ketika tes sedang dipertimbangkan sebagai
pengganti metode memakan waktu lebih untuk memperoleh informasi. Sebagai
contoh, Mr Brown, guru biologi, bertanya-tanya apakah tes obyektif kemampuan
belajar dapat digunakan di tempat pengamatan dan penilaian prosedur rumit ia
gunakan saat ini. Dia merasa bahwa jika tes dapat diganti untuk prosedur yang
lebih kompleks, ia akan memiliki lebih banyak waktu untuk mengabdikan untuk
murid individu selama
TT
diawasi masa studi. Analisis perilaku murid tertentu di mana ia dinilai
kemampuan belajar murid 'menunjukkan bahwa banyak prosedur dapat dinyatakan
dalam bentuk pertanyaan tes objektif. Akibatnya, ia mengembangkan tes obyektif
kemampuan belajar bahwa ia diberikan kepada murid-muridnya. Untuk menentukan
berapa memadai tes diukur kemampuan belajar ia berkorelasi hasil tes dengan
penilaian tentang kemampuan belajar siswa. Sebuah koefisien korelasi yang
dihasilkan dari 75 mengindikasikan kesepakatan yang cukup besar antara hasil tes
dan mengukur kriteria. Koefisien korelasi ini merupakan validitas-kriteria terkait uji
Mr Brown kemampuan belajar.
Kita mungkin juga berkorelasi hasil tes dengan beberapa ukuran lainnya saat ini
kinerja untuk menentukan apakah sebuah studi prediktif adalah layak dilakukan.
Sebagai contoh, jika satu set bakat skor tes skolastik berkorelasi dengan tingkat
yang cukup tinggi (misalnya, .60) dengan satu set nilai tes prestasi yang diperoleh
pada saat yang sama, itu akan menunjukkan bahwa tes bakat skolastik memiliki
cukup potensial sebagai prediktor untuk membuat sebuah studi prediktif berharga.
Di sisi lain, korelasi yang rendah akan mencegah kita dari melakukan studi prediktif,
karena kita tahu bahwa korelasi akan menjadi masih lebih rendah ketika periode
waktu antara tindakan diperpanjang. Hal lain dianggap sama, semakin besar
rentang waktu antara dua ukuran yang lebih kecil koefisien korelasi.
Harapan Table. Seberapa baik tes memprediksi kinerja masa depan atau
memperkirakan kinerja saat ini pada beberapa ukuran kriteria juga dapat
ditunjukkan dengan langsung memplot data dalam grafik dua kali lipat seperti yang

ditunjukkan pada Gambar 4.1. Di sini, Data Mr Young (dari Tabel 4.3) telah
ditabulasikan dengan menempatkan penghitungan menunjukkan berdiri masingmasing individu pada kedua skor bakat musim gugur dan musim semi skor
aritmatika. Sebagai contoh, John mencetak 119 pada tes bakat gugur dan 77 pada
tes musim semi aritmatika, sehingga penghitungan, mewakili penampilannya,
ditempatkan di sel kanan atas. Kinerja semua murid lain pada dua tes yang dihitung
dengan cara yang sama. Dengan demikian, setiap tanda tally pada Gambar 4.1
merupakan seberapa baik masing-masing Mr Young dua puluh murid dilakukan pada
musim gugur dan musim semi tes. Total jumlah murid di masing-masing sel, dan di
setiap kolom dan baris, juga telah ditunjukkan.
Grid harapan yang ditunjukkan pada Gambar 4.1 dapat digunakan secara langsung
sebagai meja harapan, hanya dengan menggunakan frekuensi dalam setiap sel.
Penafsiran informasi tersebut sederhana dan langsung. Misalnya, orang-orang
murid yang mencetak di atas rata-rata pada tes bakat jatuh, tidak ada skor di
bawah 65 pada tes musim semi aritmatika, 2 dari 5 mencetak antara 65 dan 74,
dan 3 dari 5 gol antara 75 dan 84. Dari mereka yang mencetak bawah rata-rata
pada tes bakat jatuh, tidak ada gol dalam kategori top pada tes musim semi
aritmatika dan 4 dari 5 gol di bawah 65. interpretasi ini terbatas pada kelompok
diuji tetapi dari hasil seperti yang mungkin membuat prediksi tentang masa depan
murid. Kita dapat mengatakan, misalnya, bahwa siswa yang mendapat skor di atas
rata-rata pada tes musim gugur bakat mungkin akan mencetak gol atas rata-rata
pada tes musim semi aritmatika. Prediksi lain dapat dibuat dengan cara yang sama
dengan mencatat frekuensi dalam setiap sel grid pada Gambar 4.1.
Lebih umum, angka-angka dalam tabel harapan yang dinyatakan dalam
persentase. Hal ini mudah diperoleh dari grid dengan mengubah masing-masing
frekuensi sel persentase dari jumlah total penghitungan di barisnya. Ini telah
dilakukan untuk data pada Gambar 4.1 dan hasilnya disajikan pada Tabel 4.5. Baris
pertama dari tabel menunjukkan bahwa dari 5 murid yang mencetak di atas ratarata pada tes bakat jatuh, 40 persen (2 murid) mencetak antara 65 and'74 pada tes
musim semi aritmatika, dan 60 persen (3 murid) mencetak antara 75 dan 84. Baris
tersisa dibaca dengan cara yang sama. Penggunaan persentase membuat angkaangka dalam setiap baris dan kolom yang sebanding. Prediksi kami kemudian dapat
dibuat dalam hal standar (yaitu, kemungkinan dari 100) untuk semua tingkat skor.
Penafsiran kita sangat tepat untuk menjadi sedikit lebih jelas
jika kita mengatakan kemungkinan Henry berada di kelompok atas pada ukuran
kriteria adalah 60 dari 100 dan Ralph hanya 10 dari 100, dibandingkan jika kita
mengatakan kemungkinan Henry adalah 3 dari 5 dan Ralph adalah 1 dari 10.
Tabel Harapan mengambil banyak bentuk yang berbeda dan dapat digunakan untuk
menunjukkan hubungan antara berbagai jenis ukuran. Jumlah kategori yang
digunakan dengan prediktor, atau kriteria, mungkin sedikitnya dua atau sebanyak
tampaknya diinginkan. Juga, prediktor mungkin setiap set langkah-langkah yang

kami ingin membangun validitas kriteria-kriteria yang terkait dan mungkin nilai saja,
peringkat, nilai tes, atau apa pun ukuran keberhasilan relevan lainnya. 0
Ketika menafsirkan tabel harapan didasarkan pada sejumlah kecil kasus, seperti
kelas Mr Young dari dua puluh murid, prediksi kami harus dianggap sebagai sangat
tentatif "Setiap persentase didasarkan pada begitu sedikit murid yang bisa kita
harapkan fluktuasi besar dalam angka-angka dari satu kelompok murid yang lain.
Hal ini sering mungkin untuk meningkatkan jumlah murid diwakili dalam tabel
dengan menggabungkan hasil tes dari beberapa kelas. Dimana hal ini dilakukan,
persentase kami, tentu saja, jauh lebih stabil, dan prediksi kami dapat dibuat
dengan keyakinan yang lebih besar. Dalam hal apapun, tabel harapan menyediakan
cara sederhana dan langsung menunjukkan validitas hasil tes.
The "Kriteria" Masalah. Dalam penentuan validitas-kriteria terkait, masalah utama
adalah bahwa untuk memperoleh memuaskan kriteria keberhasilan. Perlu diingat
bahwa Mr Young menggunakan pemeriksaan departemen yang komprehensif
sebagai kriteria keberhasilan dalam kelas tujuh kelas aritmatika nya. Mr Brown
menggunakan penilaian sendiri kemampuan belajar siswa. Dalam setiap contoh
kriteria keberhasilan itu hanya sebagian cocok sebagai dasar untuk uji validasi. Pak
Young mengakui bahwa pemeriksaan departemen tidak mengukur semua
pembelajaran penting hasil bahwa ia bertujuan untuk mengajar aritmatika. Ada
hampir tidak cukup penekanan pada penalaran aritmatika; interpretasi grafik dan
diagram sayangnya diabaikan; dan, tentu saja, tes tidak mengevaluasi sikap murid
terhadap aritmatika (yang Pak Young dianggap sangat penting). Demikian juga, Mr
Brown sangat menyadari kekurangan dari nya kemampuan belajar murid. Dia
merasa bahwa beberapa murid "diletakkan pada sebuah pertunjukan" ketika
mereka tahu mereka sedang diamati. Dalam kasus lain ia merasa bahwa beberapa
murid yang mungkin berlebihan pada kemampuan belajar karena prestasi yang
tinggi dalam pekerjaan kelas. Meskipun kekurangan diakui, baik Pak Young dan Mr
Brown merasa perlu untuk menggunakan langkah-langkah kriteria ini karena
mereka adalah tindakan kriteria terbaik yang tersedia.
Plights dari Pak Young dan Mr Brown dalam menemukan kriteria yang cocok
keberhasilan untuk tujuan validasi tes yang tidak biasa. Pemilihan kriteria yang
memuaskan adalah salah satu masalah yang paling sulit dalam memvalidasi tes.
Untuk tujuan pendidikan yang paling, tidak ada kriteria yang cukup sukses ada.
Mereka yang digunakan cenderung kurang dalam kelengkapan dan dalam
kebanyakan kasus memberikan hasil yang kurang stabil dibandingkan dengan tes
divalidasi.
Kurangnya kriteria yang cocok untuk memvalidasi tes prestasi memiliki implikasi
penting bagi guru kelas. Karena jenis statistik validitas biasanya tidak tersedia, guru
akan harus bergantung pada prosedur analisis logis untuk menjamin validitas
pengujian. Ini berarti hati-hati mengidentifikasi tujuan pengajaran, menyatakan
tujuan tersebut dalam hal perubahan tertentu dalam perilaku murid, dan

membangun atau memilih instrumen evaluasi yang memuaskan mengukur


perubahan perilaku dicari dalam murid. Dengan demikian, validitas isi akan
mengambil peran sangat penting dalam evaluasi guru kemajuan murid.
Membangun Validitas 93
Kedua jenis validitas sejauh ini dijelaskan keduanya khawatir dengan beberapa
penggunaan praktis spesifik hasil tes. Mereka membantu kita menentukan
bagaimana nilai tes juga merupakan pencapaian hasil belajar tertentu (validitas isi),
atau seberapa baik mereka memprediksi atau memperkirakan kinerja tertentu
(validitas kriteria yang berhubungan). Selain ini menggunakan lebih spesifik dan
segera praktis, kita mungkin ingin menafsirkan nilai ujian dalam hal beberapa
kualitas psikologis umum. Misalnya, daripada berbicara tentang nilai seorang murid
pada tes aritmatika tertentu, atau seberapa baik memprediksi keberhasilan dalam
matematika, kita mungkin ingin menyimpulkan bahwa murid memiliki tingkat
tertentu kemampuan penalaran. ini memberikan gambaran umum yang luas dari
perilaku murid yang memiliki implikasi untuk banyak kegunaan yang berbeda.
Setiap kali kita ingin menafsirkan hasil tes dalam hal beberapa sifat atau kualitas
psikologis, kita prihatin dengan validitas konstruk. Sebuah konstruksi adalah
kualitas psikologis yang kita asumsikan ada untuk menjelaskan beberapa aspek
perilaku. Kemampuan penalaran adalah membangun. Ketika kita menafsirkan nilai
ujian sebagai ukuran kemampuan penalaran, kita menyiratkan bahwa ada kualitas
yang dapat tepat disebut kemampuan penalaran dan bahwa hal itu dapat
menjelaskan untuk beberapa derajat untuk kinerja pada tes. Memverifikasi implikasi
tersebut adalah tugas validasi konstruk.
Contoh umum dari konstruksi adalah kecerdasan, sikap ilmiah, berpikir kritis,
pemahaman bacaan, kemampuan belajar, dan bakat matematika. Ada keuntungan
yang jelas untuk dapat menafsirkan hasil tes dalam hal konstruksi psikologis
seperti. Setiap konstruk memiliki teori yang mendasari yang dapat dibawa untuk
menanggung dalam menjelaskan dan memprediksi perilaku seseorang. Jika kita
mengatakan seseorang sangat cerdas, misalnya, kita tahu apa perilaku yang
diharapkan dari dirinya dalam berbagai situasi tertentu.
Validitas konstruk dapat didefinisikan sebagai sejauh mana hasil tes dapat
ditafsirkan dari segi konstruksi psikologis tertentu. Theprocess menentukan validitas
konstruk melibatkan langkah-langkah berikut: (1) mengidentifikasi konstruksi
dianggap untuk memperhitungkan hasil tes; (2) menurunkan hipotesis mengenai
kinerja pengujian dari teori yang mendasari konstruk; (3) memverifikasi hipotesis
dengan logis dan empiris berarti. Sebagai contoh, mari kita anggap bahwa kita ingin
memeriksa klaim bahwa tes yang baru dibangun mengukur kecerdasan. Dari apa
yang diketahui tentang "kecerdasan," kita bisa membuat prediksi berikut:
Nilai tes akan meningkat dengan meningkatnya umur (kecerdasan diasumsikan
meningkat dengan usia sampai sekitar usia enam belas).

Nilai tes akan memprediksi keberhasilan dalam prestasi sekolah.


Nilai tes akan berhubungan positif dengan peringkat guru kecerdasan.
Nilai tes akan berhubungan positif dengan skor pada tes kecerdasan lainnya yang
disebut.
Nilai tes akan membedakan antara kelompok yang diketahui berbeda, seperti
"berbakat" dan "cacat mental."
Nilai tes akan sedikit dipengaruhi oleh pengajaran langsung.
Setiap prediksi ini, dan lain-lain, kemudian akan diuji, satu per satu. Jika hasil positif
diperoleh untuk setiap prediksi, bukti gabungan memberikan dukungan terhadap
klaim bahwa tes mengukur kecerdasan. Jika prediksi tidak dikonfirmasi, mengatakan
nilai tidak meningkat dengan usia, kita harus menyimpulkan bahwa baik tes ini
bukan merupakan ukuran yang valid kecerdasan, atau ada sesuatu yang salah
dengan teori kami. Sebagai Cronbach dan Meehl 5 telah menunjukkan, dengan
validasi konstruk teori dan tes sedang divalidasi pada saat yang sama.
Metode Digunakan Memperoleh Bukti untuk Membangun Validasi. Seperti tercantum
dalam ilustrasi kita, tidak ada metode tunggal yang memadai membangun validitas
konstruk. Ini adalah masalah mengumpulkan bukti dari berbagai sumber. Kami
dapat menggunakan kedua validitas isi dan validitas-kriteria terkait sebagai bukti
parsial untuk mendukung validitas konstruk, tetapi tak satu pun dari mereka saja
sudah cukup. Membangun validasi tergantung pada kesimpulan logis yang diambil
dari berbagai jenis data. Prosedur berikut menggambarkan berbagai metode yang
dapat digunakan dalam memperoleh bukti untuk validitas konstruk: 6
Century-Crofts, 1964).
1. Analisis proses mental yang diperlukan oleh item tes. Satu dapat menganalisis
proses mental yang terlibat dengan memeriksa item tes untuk menentukan faktorfaktor apa mereka muncul untuk mengukur dan / atau dengan pemberian tes untuk
siswa individu dan memiliki mereka "berpikir keras" karena mereka menjawab.
Dengan demikian, pemeriksaan tes ilmu pengetahuan dapat menunjukkan bahwa
nilai tes kemungkinan akan dipengaruhi oleh pengetahuan, pemahaman, dan
kemampuan kuantitatif. Demikian pula, "berpikir keras" pada tes penalaran
aritmatika dapat memverifikasi bahwa item panggilan untuk proses penalaran
dimaksudkan, atau mungkin mengungkapkan bahwa sebagian besar masalah dapat
diselesaikan dengan prosedur trial-and-error yang sederhana.
Perbandingan nilai dari kelompok yang dikenal. Dalam beberapa kasus, adalah
mungkin untuk memprediksi bahwa nilai akan berbeda dari satu kelompok ke
kelompok lain. Ini mungkin kelompok usia, anak laki-laki dan perempuan, terlatih
dan tidak terlatih, disesuaikan dan menyesuaikan diri, dan sejenisnya. Sebagai
contoh, sebagian besar kemampuan meningkat dengan usia (setidaknya selama

masa kanak-kanak dan remaja), dan anak laki-laki mendapatkan skor yang lebih
tinggi dibandingkan anak perempuan pada tes tertentu (misalnya, pemahaman
mekanik). Selain itu, masuk akal untuk mengharapkan bahwa skor tes prestasi akan
membedakan antara kelompok dengan jumlah yang berbeda dari pelatihan dan
bahwa nilai pada persediaan penyesuaian akan membedakan antara kelompok
disesuaikan dan maladjusted individu. Dengan demikian, prediksi perbedaan untuk
tes tertentu dapat diperiksa terhadap kelompok-kelompok yang diketahui berbeda
dan hasilnya digunakan sebagai dukungan parsial untuk validasi konstruk.
Perbandingan skor sebelum dan setelah beberapa pengobatan tertentu. Beberapa
nilai ujian dapat diharapkan akan cukup tahan terhadap pelatihan khusus (misalnya,
kecerdasan), sedangkan yang lain dapat diharapkan untuk meningkatkan (misalnya,
prestasi). Demikian pula, beberapa skor tes dapat diharapkan untuk mengubah
jenis tertentu sebagai pengobatan eksperimental diperkenalkan. Sebagai contoh,
kita akan mengharapkan nilai pada tes kecemasan untuk berubah ketika individu
mengalami pengalaman kecemasan-memproduksi. Dengan demikian, dari teori
yang mendasari sifat yang diukur, kita dapat membuat prediksi bahwa skor tes
tertentu akan berubah (atau tetap stabil) dalam berbagai kondisi. Jika prediksi kami
diverifikasi, hasilnya memberikan dukungan lebih lanjut untuk validasi konstruk.
Korelasi dengan tes lainnya. Nilai dari setiap tes tertentu dapat diharapkan
berkorelasi secara substansial dengan nilai tes lain yang mungkin mengukur hal
yang sama. Dengan cara yang sama, nilai tes dapat diharapkan memiliki korelasi
rendah dengan tes yang dirancang untuk mengukur kemampuan yang berbeda
atau sifat. Sebagai contoh, kita akan mengharapkan satu set skolastik skor tes
bakat berkorelasi lebih tinggi dengan orang-orang dari tes bakat skolastik lain,
tetapi jauh lebih rendah dengan skor tes bakat musik. Dengan demikian, untuk
setiap tes yang diberikan, kami akan memprediksi korelasi tinggi dengan tes seperti
dan korelasi rendah dengan tes seperti. Selain itu, kami juga bisa memprediksi
bahwa skor tes akan berkorelasi dengan berbagai kriteria praktis. Skor bakat
skolastik, misalnya, harus berkorelasi dengan nilai memuaskan sekolah, nilai tes
prestasi, dan langkah-langkah lain prestasi. Jenis kedua bukti, tentu saja, validitaskriteria terkait. Kepentingan kita di sini, bagaimanapun, tidak dalam masalah
mendesak dari prediksi, melainkan dalam menggunakan korelasi ini untuk
mendukung klaim bahwa tes adalah ukuran dari bakat skolastik. Seperti yang
ditunjukkan sebelumnya, membangun validasi tergantung pada berbagai macam
bukti, termasuk yang disediakan oleh jenis-jenis validitas.
Dalam memeriksa validitas konstruk, kepentingan kita tidak terbatas pada
konstruksi psikologis tes dirancang untuk mengukur. Setiap faktor yang mungkin
mempengaruhi nilai tes menjadi perhatian yang sah. Sebagai contoh, meskipun
penulis uji mengklaim langkah-langkah tes penalaran aritmatika nya, kita mungkin
berhak bertanya sejauh mana skor tes dipengaruhi oleh keterampilan komputasi,
kemampuan membaca, dan faktor-faktor yang sama. Secara dipahami, validitas
konstruk merupakan upaya untuk menjelaskan perbedaan dalam skor tes. Alih-alih

bertanya, "Apakah ukuran tes ini apa yang penulis mengklaim mengukur?" kita
bertanya, "Tepatnya apa ukuran tes ini? Bagaimana kita paling bermakna
menafsirkan skor secara psikologis?" Tujuan validasi konstruk adalah untuk
mengidentifikasi sifat dan kekuatan dari semua faktor yang mempengaruhi kinerja
pada tes.
Validitas konstruk sangat penting di semua jenis testing "prestasi, bakat, dan
pengembangan pribadi-sosial. Apabila memilih tes standar, kita harus mencatat apa
interpretasi disarankan untuk tes dan kemudian meninjau uji manual untuk
menentukan bukti total yang tersedia yang mendukung interpretasi ini.
Kepercayaan diri yang kita dapat membuat interpretasi yang diajukan secara
langsung tergantung pada jenis bukti yang diajukan. Juga, jika kita menduga bahwa
skor tes dipengaruhi oleh faktor-faktor lain selain yang dijelaskan dalam manual
(seperti kecepatan dan kemampuan membaca), kita harus memeriksa firasat ini
dengan eksperimen yang cocok kita sendiri.
VALIDITAS KRITERIA-DISEBUTKAN TES PENGUASAAN 96
Seperti disebutkan dalam Bab 1, tes mengacu-norma dirancang untuk menekankan
perbedaan antara individu. Kinerja seseorang pada tes norma-referenced memiliki
sedikit makna dengan sendirinya. Untuk menjadi bermakna, kinerja uji harus
dibandingkan dengan kinerja orang lain yang telah mengambil tes. Kami menilai
apakah nilai norma-referenced tinggi atau rendah dengan 'mencatat posisi relatif
dalam satu set nilai. Dasar pendekatan pengukuran ini adalah penyebaran luas nilai
tes sehingga diskriminasi diandalkan dapat dibuat antara individu-individu. Kita bisa
berbicara tentang perbedaan antara Tom dan Bill dan Mary Jane dan dengan
keyakinan yang lebih besar jika perbedaan skor besar. Variabilitas ini antara skor,
yang penting untuk pengujian norma-referenced, juga diperlukan untuk menghitung
koefisien validitas. Bahkan, sebagian besar langkah-langkah statistik tradisional
untuk memperkirakan validitas dan reliabilitas menggunakan rumus berdasarkan
variabilitas antara skor. Dengan demikian, meskipun semua berbagai perkiraan
validitas dibahas sebelumnya sesuai untuk pengujian norma-referenced, mereka
tidak benar-benar sesuai untuk menilai keabsahan tes penguasaan kriteriadireferensikan. 7 1
Whe reas variabilitas antara nilai sangat penting untuk tes mengacu-norma, itu
tidak relevan untuk tes penguasaan kriteria-direferensikan. Tes ini dirancang untuk
menggambarkan jenis tugas seorang individu dapat melakukan. Jika semua siswa
dapat melakukan himpunan tugas (misalnya, mengidentifikasi alat ukur termasuk
dalam unit cuaca) pada akhir instruksi, dan dengan demikian semua mendapatkan
nilai sempurna (variabilitas nol), itu lebih baik. Dari sudut pandang penguasaan
pembelajaran, pengujian dan instruksi akan muncul untuk menjadi efektif. Karena
variabilitas antara skor bukanlah kondisi yang diperlukan untuk tes penguasaan
kriteria-direferensikan baik, langkah-langkah statistik konvensional untuk
menentukan validitas yang tidak pantas. 8

Jenis validitas yang sangat penting terbesar untuk tes penguasaan kriteriadireferensikan adalah validitas isi. Prosedur untuk memperoleh validitas isi
dijelaskan sebelumnya dalam bab ini adalah sebagai berlaku di sini seperti mereka
dengan tes norma-referenced. Fakta bahwa tes penguasaan kriteria-direferensikan
biasanya terbatas pada domain yang lebih delimited tugas belajar (misalnya,
satuan atau bab), bahkan menyederhanakan proses mendefinisikan dan memilih
sampel yang representatif dari tugas. Dalam beberapa kasus, domain tugas sangat
terbatas (misalnya, penambahan bilangan satu digit) bahwa sampel yang
representatif dapat diperoleh tanpa menggunakan tabel spesifikasi.
Meskipun validitas isi adalah perhatian utama dengan tes penguasaan kriteriadireferensikan, kami juga mungkin tertarik menggunakan hasil tes untuk membuat
prediksi tentang murid. Kita mungkin, misalnya, menggunakan pretest kriteriadireferensikan untuk memprediksi siswa cenderung menguasai materi dalam unit
instruksi, atau menggunakan tes penguasaan end-of-satuan untuk menentukan
murid harus melanjutkan ke unit berikutnya instruksi . Keputusan instruksional
seperti ini membutuhkan beberapa bukti (validitas-kriteria terkait) bahwa keputusan
kami didasarkan nyenyak. Bukti ini dapat diperoleh dengan cara meja harapan,
seperti yang ditunjukkan pada Tabel 4.6. Ini akan dicatat dalam tabel ini bahwa
sebagian besar murid dengan skor pretest dari 20 atau lebih rendah gagal untuk
mencapai penguasaan pada akhir unit. Dalam kasus seperti itu, skor tes dari 20
akan memberikan skor cutoff yang baik untuk menentukan siswa harus melanjutkan
dengan unit dan yang seharusnya menerima bantuan perbaikan sebelum
melanjutkan. Kami akan, tentu saja, lebih memilih sejumlah besar murid dari tiga
puluh ketika memilih nilai cutoff tersebut, tapi ini merupakan situasi kelas yang
realistis. Seperti disebutkan sebelumnya, itu sering mungkin untuk meningkatkan
jumlah murid yang digunakan dalam tabel harapan dengan menggabungkan hasil
tes dari beberapa kelas.
Tidak ada dalam sifat pengujian penguasaan kriteria-direferensikan untuk
menyingkirkan validitas konstruk. Begitu banyak bukti yang mendukung untuk
validitas konstruk tergantung pada korelasi dan ukuran statistik lain,
bagaimanapun, bahwa validitas konstruk tes kriteria-direferensikan akan,
kebutuhan, didasarkan pada bukti-bukti yang agak sedikit (yaitu, hanya bukti
bahwa tidak tergantung pada variabilitas antara skor).
FAKTOR YANG MEMPENGARUHI VALIDITAS 98
Banyak faktor yang cenderung membuat hasil tes tidak valid untuk digunakan.
Beberapa agak jelas dan mudah dihindari. Tidak ada guru akan berpikir untuk
mengukur pengetahuan tentang ilmu-ilmu sosial dengan tes bahasa Inggris. Guru
juga akan mempertimbangkan mengukur keterampilan pemecahan masalah di
kelas tiga aritmatika dengan tes yang dirancang untuk anak kelas enam. Dalam
kedua kasus hasil tes akan jelas tidak valid. Faktor-faktor yang mempengaruhi
validitas yang bersifat umum ini sama tapi jauh lebih halus dalam karakter. Sebagai

contoh, seorang guru dapat membebani tes ilmu sosial dengan item mengenai
fakta-fakta sejarah dan dengan demikian itu kurang valid sebagai ukuran
pencapaian dalam studi sosial. Atau guru kelas tiga dapat memilih masalah
aritmatika yang sesuai untuk murid-muridnya, tetapi menulis arah yang hanya
pembaca lebih mampu memahami dengan jelas. Tes aritmatika kemudian menjadi
tes membaca yang membatalkan hasil untuk digunakan. Ini adalah sifat dari
beberapa faktor yang lebih halus mempengaruhi validitas. Ini adalah faktor yang
guru harus waspada, apakah membangun tes kelas atau memilih tes standar.
Faktor-faktor dalam Test Sendiri 98
Pemeriksaan yang seksama item tes akan menunjukkan apakah tes tampaknya
untuk mengukur kandungan subyek dan fungsi mental bahwa guru tertarik dalam
pengujian. Namun, salah satu dari faktor-faktor berikut dapat mencegah item tes
dari berfungsi sebagaimana dimaksud dan dengan demikian menurunkan validitas
hasil pengujian:
1. arah yang tidak jelas. Arah yang tidak jelas menunjukkan kepada murid
bagaimana menanggapi item, apakah itu diperbolehkan untuk menebak, dan cara
merekam jawaban akan cenderung mengurangi validitas.
Membaca kosa kata dan kalimat struktur terlalu sulit. Kosakata dan struktur kalimat
yang terlalu rumit untuk siswa mengambil tes akan menghasilkan tes mengukur
pemahaman bacaan dan aspek kecerdasan daripada aspek perilaku murid bahwa
tes ini dimaksudkan untuk mengukur.
Tingkat Inappropriate kesulitan dari item tes. Dalam tes norma-direferensikan, item
yang terlalu mudah atau terlalu sulit tidak akan memberikan diskriminasi handal di
antara murid dan validitas karena itu akan lebih rendah. Dalam tes kriteriadireferensikan, kegagalan untuk mencocokkan kesulitan item tes dengan kesulitan
yang ditentukan dalam tujuan instruksional akan menurunkan validitas.
Item tes buruk dibangun. item uji yang sengaja memberikan petunjuk jawabannya
akan cenderung mengukur kewaspadaan para murid dalam mendeteksi petunjuk
serta aspek perilaku murid bahwa tes ini dimaksudkan untuk mengukur.
Ambiguitas. pernyataan ambigu dalam item tes berkontribusi terhadap salah tafsir
dan kebingungan. Ambiguitas terkadang membingungkan siswa yang lebih baik
lebih dari siswa miskin, menyebabkan item berfungsi bahkan kurang efektif untuk
mereka.
Item tes yang tidak pantas untuk hasil yang diukur. Mencoba untuk mengukur
pemahaman, keterampilan berpikir, dan jenis kompleks lainnya prestasi dengan
bentuk tes yang sesuai hanya untuk mengukur pengetahuan faktual akan
membatalkan hasil.

Uji terlalu pendek. Sebuah tes hanya contoh dari banyak pertanyaan yang mungkin
ditanyakan. Jika tes ini terlalu singkat untuk memberikan sampel yang representatif
dari perilaku kita tertarik, validitas akan menderita sesuai.
Pengaturan yang tidak tepat item. item Uji biasanya diatur dalam urutan kesulitan
dengan item termudah pertama. Menempatkan item yang sulit di awal tes dapat
menyebabkan murid untuk menghabiskan terlalu banyak waktu pada ini dan
mencegah mereka dari mencapai barang-barang mereka dengan mudah bisa
menjawab. Pengaturan yang tidak tepat juga dapat mempengaruhi validitas dengan
memiliki efek yang merugikan pada motivasi murid.
Pola diidentifikasi jawaban. Menempatkan jawaban dalam beberapa pola yang
sistematis (misalnya, T, T, F, F, atau A, B, C, D, A, B, C, D) akan memungkinkan
siswa untuk menebak jawaban atas beberapa item yang lebih mudah dan ini akan
menurunkan validitas.
Singkatnya, cacat dalam pembangunan tes yang mencegah item tes dari berfungsi
selaras dengan tujuan penggunaannya akan memberikan kontribusi pada
ketidakabsahan pengukuran. Banyak dari apa yang tertulis dalam bab-bab berikut
diarahkan meningkatkan validitas hasil yang diperoleh dengan tes kelas dan
instrumen evaluasi lainnya.
Berfungsi Konten dan Pengajaran Prosedur 99
Dalam kasus pengujian prestasi, isi berfungsi item tes tidak dapat ditentukan hanya
dengan memeriksa bentuk dan isi tes. Misalnya, item berikut mungkin muncul
untuk mengukur penalaran ilmu hitung jika diperiksa tanpa mengacu pada apa yang
siswa telah diajarkan:
Jika pipa 40 'dipotong sehingga bagian yang lebih pendek adalah 2/3 selama lagi
sepotong, apa yang panjang dari potongan yang lebih pendek?
Namun, jika guru telah mengajarkan solusi untuk masalah tertentu sebelum
memberikan tes, item tes sekarang ukuran tidak lebih dari pengetahuan hafal.
Demikian pula, tes pemahaman, berpikir kritis, dan kompleks hasil belajar lainnya
adalah tindakan yang sah di daerah ini hanya jika item tes berfungsi sebagaimana
dimaksud. Jika murid sebelumnya telah diajarkan solusi untuk masalah-masalah
tertentu yang termasuk dalam ujian, atau telah diajarkan langkah mekanik untuk
mendapatkan solusi, tes tersebut tidak bisa lagi dianggap instrumen yang valid
untuk mengukur proses mental yang lebih kompleks.
Faktor-faktor di Uji Administrasi dan Scoring 100
Administrasi dan scoring tes juga dapat memperkenalkan faktor yang memiliki efek
yang merugikan pada keabsahan hasil. Dalam kasus tes buatan guru, faktor-faktor
seperti waktu yang cukup untuk menyelesaikan tes, bantuan tidak adil untuk siswa
individu yang meminta bantuan, kecurangan selama pemeriksaan, dan skor tidak

dapat diandalkan jawaban esai akan cenderung untuk menurunkan validitas. Dalam
kasus tes standar, kegagalan untuk mengikuti petunjuk standar dan batas waktu,
memberikan bantuan siswa yang tidak sah, dan kesalahan dalam mencetak gol
sama akan berkontribusi pada validitas rendah. Untuk semua jenis tes, kondisi fisik
dan psikologis yang merugikan pada saat pengujian juga mungkin memiliki efek
yang merugikan.
Faktor-faktor dalam Responses Murid ' 100
Dalam beberapa kasus, hasil tes tidak valid karena faktor personal yang
mempengaruhi respon pupil terhadap situasi tes daripada segala kekurangan dalam
instrumen tes. Siswa dapat terhambat oleh gangguan emosi yang mengganggu
hasil tes mereka. Beberapa murid ketakutan karena situasi tes dan dengan
demikian tidak mampu merespon secara normal. Yang lain tidak termotivasi untuk
mengajukan upaya terbaik mereka. Ini dan faktor lain yang membatasi dan
memodifikasi respon murid dalam situasi tes jelas akan menurunkan validitas hasil
tes.
Faktor kurang jelas yang mempengaruhi hasil tes adalah bahwa respon ditetapkan.
11 Satu set respon kecenderungan yang konsisten untuk mengikuti pola tertentu
dalam menanggapi untuk menguji item. Sebagai contoh, beberapa orang akan
merespon "benar" ketika mereka tidak tahu jawaban untuk item benar-salah,
sementara orang lain akan cenderung untuk menandai "palsu." Sebuah tes dengan
sejumlah besar laporan yang benar sehingga akan menguntungkan bagi tipe
pertama orang dan kelemahan dari jenis kedua. Meskipun beberapa set respon,
seperti yang diilustrasikan, dapat diimbangi dengan prosedur yang cermat uji
konstruksi (misalnya, termasuk jumlah yang sama pernyataan benar dan salah
dalam ujian) set respon lain yang lebih sulit dikendalikan. Khas respon set dalam
kategori terakhir ini adalah kecenderungan untuk bekerja untuk kecepatan bukan
ketepatan, kecenderungan untuk berjudi bila ragu, dan penggunaan gaya tertentu
dalam menanggapi tes esai. Respon set ini mengurangi keabsahan hasil pengujian
dengan memperkenalkan faktor-faktor nilai tes yang tidak relevan dengan tujuan
pengukuran. 12
Sifat Grup dan Kriteria tersebut 101
Validitas selalu spesifik untuk kelompok tertentu. Tes aritmatika berdasarkan
masalah cerita, misalnya, dapat mengukur kemampuan penalaran dalam kelompok
lambat, dan kombinasi recall sederhana informasi dan keterampilan komputasi
dalam kelompok yang lebih maju. Demikian pula, nilai pada tes ilmu pengetahuan
dapat menyumbang sebagian besar dengan membaca pemahaman dalam satu
kelompok dan dengan pengetahuan tentang fakta-fakta lain. Apa langkah-langkah
uji dipengaruhi oleh faktor-faktor seperti usia, jenis kelamin, tingkat kemampuan,
latar belakang pendidikan, dan latar belakang budaya. Dengan demikian, dalam
menilai laporan uji validitas termasuk dalam manual tes, atau sumber lain, penting

untuk dicatat sifat kelompok validasi. Seberapa dekat itu membandingkan


karakteristik signifikan terhadap sekelompok murid kita ingin uji menentukan
bagaimana berlaku Informasi adalah untuk kelompok tertentu kami.
Dalam mengevaluasi koefisien validitas, juga perlu mempertimbangkan sifat dari
kriteria yang digunakan. Sebagai contoh, skor pada tes bakat matematika
cenderung untuk memberikan prediksi yang lebih akurat dari pencapaian dalam
kursus fisika di mana masalah kuantitatif ditekankan daripada di salah satu di mana
mereka hanya memainkan peran kecil. Demikian juga, kita bisa mengharapkan nilai
pada tes berpikir kritis berkorelasi lebih tinggi dengan nilai dalam studi sosial
program yang menekankan pemikiran kritis dibandingkan pada mereka yang sangat
tergantung pada menghafal informasi faktual. Hal lain dianggap sama, semakin
besar kesamaan antara perilaku diukur dengan tes dan perilaku diwakili dalam
kriteria, semakin tinggi koefisien validitas.
Karena informasi validitas bervariasi dengan sifat kelompok diuji dan dengan
komposisi ukuran kriteria yang digunakan, validasi data yang dipublikasikan harus
dianggap sebagai sangat tentatif. Bila mungkin, validitas hasil tes harus diperiksa
dalam situasi lokal yang spesifik.
Ini diskusi tentang faktor yang mempengaruhi validitas hasil tes harus membuat
jelas sifat meresap dan fungsional validitas konsep. Dalam analisis akhir validitas
hasil tes didasarkan pada sejauh mana perilaku ditimbulkan dalam situasi pengujian
adalah representasi benar
perilaku yang sedang dievaluasi. Tims, apa pun dalam pembangunan atau
administrasi dari tes yang menyebabkan hasil tes menjadi representatif dari
karakteristik orang yang diuji memberikan kontribusi untuk menurunkan validitas.
Dalam arti yang sangat nyata, maka, itu adalah pengguna dari tes yang harus
membuat keputusan akhir mengenai validitas dari hasil tes. Dia adalah satusatunya yang tahu seberapa baik tes sesuai penggunaan yang khusus, seberapa
baik kondisi pengujian yang terkontrol, dan bagaimana tanggapan khas adalah
untuk situasi pengujian.
pengaruh ini dapat ditemukan dalam instrumen tes itu sendiri, beberapa dalam
hubungan pengajaran pengujian, beberapa dalam administrasi dan skor tes,
beberapa di tanggapan atipikal siswa dengan situasi tes, dan masih orang lain
dalam sifat kelompok diuji dan dalam komposisi tindakan kriteria yang digunakan.
Tujuan utamanya dalam pembangunan, seleksi, dan penggunaan tes, dan
instrumen evaluasi lainnya, adalah untuk mengendalikan faktor-faktor yang
memiliki efek buruk pada validitas dan menginterpretasikan hasil evaluasi sesuai
dengan apa informasi validitas tersedia.
RINGKASAN 102

Kualitas yang paling penting untuk dipertimbangkan saat memilih 'atau


membangun instrumen evaluasi adalah validitas. Hal ini mengacu pada sejauh
mana hasil evaluasi melayani penggunaan tertentu yang mereka dimaksudkan.
Dalam menafsirkan informasi validitas, penting untuk diingat bahwa validitas
mengacu pada hasil daripada instrumen, bahwa kehadirannya adalah masalah
derajat, dan itu selalu spesifik untuk beberapa penggunaan tertentu.
Ada tiga tipe dasar validitas. Konten validitas mengacu pada sejauh mana sebuah
tes mengukur sampel yang representatif dari isi pelajaran-materi dan perubahan
perilaku dalam pertimbangan. Hal ini terutama penting dalam pengujian prestasi
dan ditentukan oleh analisis logis dari konten pengujian. -Kriteria terkait validitas
berkaitan dengan sejauh mana hasil tes akurat dalam memprediksi beberapa
kinerja masa depan atau memperkirakan beberapa kinerja saat ini. Jenis validitas
dapat dilaporkan dengan menggunakan koefisien korelasi disebut koefisien validitas
atau dengan cara tabel harapan. Ini adalah makna khusus dalam semua jenis
pengujian bakat, tetapi yang bersangkutan setiap kali hasil tes digunakan untuk
membuat prediksi spesifik, atau kapan tes sedang dipertimbangkan sebagai
pengganti prosedur memakan waktu lebih. Membangun validitas mengacu pada
sejauh yang hasil tes dapat ditafsirkan dari segi konstruksi psikologis tertentu.
Proses validasi konstruk melibatkan identifikasi dan klarifikasi faktor yang
mempengaruhi nilai tes sehingga hasil tes dapat diartikan paling bermakna. Ini
melibatkan akumulasi bukti dari berbagai studi yang berbeda. Kedua jenis validitas
dapat digunakan sebagai dukungan parsial untuk validitas konstruk, tetapi itu
adalah bukti gabungan dari semua sumber yang penting. Semakin lengkap bukti,
semakin yakin kita tentang kualitas psikologis yang diukur dengan tes.
Karena kriteria-referenced tes penguasaan tidak dirancang untuk membedakan
antara individu-individu, jenis statistik validitas yang tidak pantas. Untuk jenis tes,
kita harus bergantung terutama pada validitas isi. Dimana nilai tes yang akan
digunakan untuk prediksi (misalnya, penguasaan-nonmastery), meja harapan dapat
digunakan secara efektif.
Sejumlah faktor cenderung mempengaruhi validitas hasil tes. Some Beberapa
BELAJAR LATIHAN
Dengan cara apa tabel spesifikasi berkontribusi terhadap validitas isi? Apa aspek
validitas isi yang paling tepat untuk menderita jika tabel spesifikasi yang tidak
digunakan?
Bandingkan kesulitan relatif menentukan validitas isi untuk tes ejaan dan tes IPS.
Untuk daerah mana akan tabel spesifikasi paling berguna? Why? Mengapa?
Jika Anda ingin menentukan validitas isi dari tes prestasi standar, prosedur apa yang
akan Anda ikuti? Jelaskan langkah demi langkah prosedur Anda dan memberikan
alasan untuk setiap langkah.

Jika sesama guru mengatakan kepada Anda bahwa tes prestasi standar tertentu
memiliki validitas yang tinggi, apa jenis pertanyaan yang akan Anda ajukan
padanya?
Jenis validitas diilustrasikan oleh masing-masing pernyataan berikut?
a. a. Skor tes berkorelasi dengan nilai saja.
b. b. Sebuah tes dianalisis untuk melihat bagaimana hal itu cukup sampel apa
yang telah diajarkan.
c. c. Seorang guru membangun tabel harapan.
d. d. Skor tinggi dan skor rendah pada tes dibandingkan untuk melihat bagaimana
mereka berbeda.
e. e. Validitas ditentukan oleh analisis logis saja.
Apa keuntungan dari tabel harapan atas koefisien validitas untuk mengungkapkan
efektivitas prediktif dari tes bakat skolastik? Apa beberapa keterbatasan?
Apakah ada tipe tertentu bukti mungkin berguna dalam mengevaluasi validitas
konstruk dari masing-masing berikut ini?
a. a. Uji berpikir kritis.
b. b. Tes kreativitas.
c. c. Uji kecemasan.
Pelajari bagian validitas manual tes untuk beberapa tes prestasi standar dan tes
bakat skolastik. Bagaimana informasi yang berbeda untuk kedua jenis tes? Why?
Mengapa?
Konsultasikan bagian validitas dari Standar untuk Pendidikan dan Tes Psikologi (lihat
daftar bacaan untuk bab ini) dan meninjau jenis informasi yang manual tes harus
berisi. Bandingkan manual tes baru-baru terhadap Standar.
10. Daftar dan jelaskan secara singkat sebagai banyak faktor yang Anda bisa
memikirkan yang mungkin menurunkan validitas norma-referenced tes kelas.
Lakukan hal yang sama untuk kriteria-referenced tes. Faktor-faktor yang berbeda?
SARAN UNTUK BACAAN LEBIH LANJUT
. American Psychological Association . Standar Pendidikan dan Tes Psikologi
Washington, D C.:. APA, 1974. Lihat bagian tentang validitas (halaman 25-48) untuk
deskripsi dari tipe dasar dan sifat informasi validitas harus dicari dalam uji manual.

Anastasi , A. Psychological Testing, 4th ed. New York: Macmillan Publishing Co, Inc,
1976 Bab 6, "Validitas:. Konsep Dasar". Menjelaskan jenis standar validitas dan
metode penentuan mereka.
Cronbach , LJ "Validitas," Bab 14 di RL Thorndike (ed.), Pendidikan Pengukuran.
Washington, DC: American Council on Education 1971 Sebuah diskusi komprehensif
validitas, dengan penekanan khusus pada tes pendidikan..
Popham , WJ, dan TR Husek . "Implikasi Kriteria-Referensi Pengukuran," di WJ
Popham (ed.), Kriteria-Referensi Pengukuran. Englewood Cliffs, NJ:. Teknologi
Pendidikan Publications, 1971 Menjelaskan karakteristik pengukuran kriteriareferenced dan kesulitan memperoleh langkah-langkah yang berarti validitas dan
kehandalan.
Uji Bulletin
Wesman , AG . ganda-Entry Harapan Tabel Uji Service Bulletin, No 45 New York:..
The Psychological Corporation, 1966 buletin ini menjelaskan dan menggambarkan
bagaimana mempersiapkan tabel harapan menggunakan dua prediktor.

BAB 5
KEANDALAN DAN KARAKTERISTIK DIINGINKAN LAINNYA

Sebelah validitas, reliabilitas adalah karakteristik yang paling penting dari hasil
evaluasi. . . . . . . Keandalan (1) memberikan konsistensi yang membuat validitas
mungkin, dan (2) menunjukkan berapa banyak keyakinan kita dapat menempatkan
dalam hasil kami. . . . . . . Kepraktisan prosedur evaluasi adalah, tentu saja, juga
menjadi perhatian guru kelas sibuk.
Dalam Bab 4 itu menekankan bahwa validitas adalah pertimbangan yang paling
penting dalam pemilihan dan konstruksi prosedur evaluasi. Pertama dan terpenting
kami ingin hasil evaluasi untuk melayani penggunaan spesifik yang mereka
dimaksudkan. Selanjutnya dalam pentingnya adalah kehandalan, dan berikut ini
yang merupakan sejumlah fitur praktis yang terbaik dapat diklasifikasikan ke dalam
pos dari kegunaan.
KEANDALAN 105
Keandalan mengacu pada konsistensi pengukuran. Artinya, bagaimana skor tes
konsisten atau hasil evaluasi lain dari satu pengukuran ke yang lain. Anggaplah,
misalnya, bahwa Miss Jones baru saja diberi tes prestasi untuk murid-muridnya.
Bagaimana serupa akan skor siswa 'bila dia diuji mereka kemarin atau besok atau
minggu depan? Bagaimana nilai bervariasi telah ia memilih sampel yang berbeda
dari item yang setara? Jika itu adalah tes esai, berapa banyak akan nilai telah
diubah telah guru yang berbeda mencetak gol itu? Ini adalah jenis pertanyaan yang
dengan keandalan yang bersangkutan. Nilai tes hanya memberikan ukuran terbatas
perilaku yang diperoleh pada waktu tertentu. Kecuali pengukuran dapat terbukti
cukup konsisten (yaitu, digeneralisasikan) lebih berbeda
mm
kesempatan atau lebih sampel yang berbeda dari perilaku yang sama, sedikit
kepercayaan dapat ditempatkan dalam hasil.
Di sisi lain, kita tidak bisa mengharapkan hasil pengujian yang akan benar-benar
konsisten. Ada banyak faktor selain kualitas yang diukur yang dapat mempengaruhi
nilai tes. Jika tes tunggal diberikan kepada kelompok yang sama dua kali dalam
suksesi dekat, beberapa variasi dalam nilai dapat diharapkan karena fluktuasi
sementara dalam memori, perhatian, tenaga, kelelahan, ketegangan emosional,
menebak, dan faktor-faktor yang sama. Dengan jangka waktu yang lebih lama
antara tes, variasi tambahan dalam skor dapat disebabkan oleh intervensi
pengalaman belajar, perubahan kesehatan, lupa, dan kondisi pengujian kurang
sebanding. Jika kita menggunakan sampel yang berbeda dari item dalam tes kedua,
masih faktor lain yang mungkin mempengaruhi hasil. Individu mungkin menemukan
satu tes lebih mudah daripada yang lain karena kebetulan berisi item lebih lanjut
tentang topik tertentu yang mereka kenal. 9 faktor-faktor luar Seperti ini
memperkenalkan sejumlah kesalahan dalam semua nilai tes. Metode penentuan
keandalan pada dasarnya berarti menentukan berapa banyak kesalahan yang hadir
dalam kondisi yang berbeda. Secara umum, lebih konsisten hasil tes kami berasal

dari satu pengukuran ke yang lain, semakin sedikit kesalahan saat dan, akibatnya,
semakin besar keandalan.
Arti dari keandalan, seperti yang diterapkan untuk pengujian dan evaluasi, dapat
lebih diperjelas dengan mencatat poin umum berikut:
Keandalan mengacu pada hasil yang diperoleh dengan instrumen evaluasi dan tidak
instrumen itu sendiri. Setiap instrumen tertentu mungkin memiliki sejumlah
reliabilitas yang berbeda, tergantung pada kelompok yang terlibat dan situasi di
mana ia digunakan. Oleh karena itu lebih tepat untuk berbicara tentang keandalan
"skor tes," atau "pengukuran," daripada "tes", atau "instrumen."
Sebuah titik yang terkait erat adalah bahwa perkiraan keandalan selalu mengacu
pada jenis tertentu dari konsistensi. Nilai tes tidak dapat diandalkan pada
umumnya. Mereka dapat diandalkan (atau digeneralisasikan) selama periode waktu
yang berbeda, lebih sampel yang berbeda dari pertanyaan, lebih dari penilai yang
berbeda, dan sejenisnya. Hal ini dimungkinkan untuk nilai tes untuk konsisten
dalam salah satu hal ini dan tidak di negara lain. Jenis yang sesuai konsistensi
dalam kasus tertentu ditentukan oleh penggunaan dibuat dari hasil. Sebagai
contoh, jika kita ingin tahu apa yang orang akan seperti pada beberapa waktu
mendatang, keajegan skor sangat penting. Di sisi lain, jika kita ingin mengukur
pergeseran individu dalam kecemasan dari waktu ke waktu, kita akan
membutuhkan ukuran yang tidak memiliki keteguhan atas kesempatan untuk
mendapatkan informasi yang kita inginkan. Jadi, untuk interpretasi yang berbeda
kita perlu analisis yang berbeda dari konsistensi. Mengobati keandalan sebagai
karakteristik umum hanya dapat menyebabkan interpretasi yang salah.
Keandalan adalah perlu tetapi bukan kondisi yang cukup untuk validitas. Sebuah tes
yang memberikan hasil yang benar-benar konsisten tidak mungkin memberikan
informasi yang valid tentang perilaku yang diukur. Di sisi lain, hasil tes yang sangat
konsisten dapat mengukur hal yang salah atau dapat digunakan dalam cara-cara
yang tidak pantas. Dengan demikian, keandalan rendah dapat diharapkan untuk
membatasi tingkat validitas yang diperoleh, tapi keandalan yang tinggi tidak
memberikan jaminan bahwa tingkat memuaskan validitas akan hadir. Singkatnya,
keandalan hanya memberikan konsistensi yang membuat validitas mungkin.
Meskipun ukuran yang sangat handal mungkin memiliki sedikit atau tidak ada
validitas, ukuran yang telah terbukti memiliki tingkat validitas prediktif memuaskan
kebutuhan harus memiliki keandalan yang cukup. Jadi, di mana kita hanya tertarik
dalam memprediksi kriteria tertentu, keandalan akan sedikit perhatian jika validitas
prediktif yang memuaskan. 10 4. Tidak seperti validitas, reliabilitas terutama
statistik di alam. Analisis logis dari tes akan memberikan sedikit bukti mengenai
keandalan skor. Tes harus diberikan, satu atau beberapa kali, untuk kelompok yang
tepat orang dan konsistensi hasil ditentukan. Konsistensi ini dapat dinyatakan
dalam hal pergeseran dalam kedudukan relatif orang dalam kelompok atau dalam

hal jumlah variasi yang diharapkan dalam skor individu tertentu itu. Konsistensi dari
tipe pertama dilaporkan dengan menggunakan koefisien korelasi disebut koefisien
reliabilitas. Konsistensi jenis kedua dilaporkan dengan cara kesalahan baku
pengukuran. Kedua metode mengekspresikan keandalan secara luas digunakan dan
harus dipahami oleh orang-orang yang bertanggung jawab untuk menafsirkan hasil
tes. 11 Karena kedua metode memerlukan variabilitas dalam skor, prosedur ini
untuk memperkirakan kehandalan terutama berguna dengan norma-referenced
tindakan.
Menentukan Keandalan oleh Metode Korelasi

107

Dalam menentukan keandalan akan diinginkan untuk mendapatkan dua set


langkah-langkah di bawah kondisi yang sama dan kemudian membandingkan
hasilnya. Prosedur ini tidak mungkin, tentu saja, karena kondisi di mana data
evaluasi diperoleh tidak dapat identik. Sebagai pengganti prosedur yang ideal ini
beberapa metode estimasi reliabilitas telah diperkenalkan. Metode serupa dalam
bahwa semua dari mereka melibatkan menghubungkan dua set data, diperoleh baik
dari instrumen evaluasi yang sama atau dari bentuk setara dengan prosedur yang
sama. Koefisien korelasi yang digunakan untuk menentukan reliabilitas dihitung dan
diinterpretasikan dengan cara yang sama seperti yang digunakan dalam
menentukan perkiraan statistik validitas. Satu-satunya perbedaan antara koefisien
validitas dan koefisien reliabilitas adalah bahwa mantan didasarkan pada
kesepakatan dengan kriteria luar, dan yang terakhir didasarkan pada kesepakatan
antara dua set hasil dari prosedur yang sama.
Metode utama memperkirakan kehandalan ditunjukkan pada Tabel 5.1. Perhatikan
bahwa berbagai jenis konsistensi ditentukan oleh methods berbeda "konsistensi
selama periode waktu, konsistensi atas berbagai bentuk instrumen, dan konsistensi
dalam instrumen itu sendiri. Koefisien reliabilitas yang dihasilkan dari setiap metode
harus ditafsirkan dalam hal jenis konsistensi sedang diselidiki. Masing-masing
metode memperkirakan keandalan akan dipertimbangkan lebih lanjut secara rinci
seperti yang kita lanjutkan. Meskipun metode ini akan didiskusikan terutama
dengan mengacu pada prosedur pengujian, mereka juga berlaku untuk jenis lain
dari teknik evaluasi.
TABEL 5.1
metode keandalan estimatinc
Type of Jenis
Keandalan Ukur Procedure Prosedur
Test-retest metode Mengukur stabilitas
Setara-bentuk Mengukur kesepadananmethod metode lence bahwa kekerasan

(Test-retest dengan Measure bentuk setara stabilitas) dan kesetaraan


Split-setengah metode Mengukur konsistensi internal
Berikan tes yang sama dua kali untuk kelompok yang sama dengan interval waktu
antara tes dari beberapa menit sampai beberapa tahun
Berikan dua bentuk tes untuk kelompok yang sama dalam suksesi dekat
Berikan dua bentuk tes untuk kelompok yang sama dengan peningkatan interval
waktu antara bentuk
Kuder-Richardson Ukur internal
method metode consistency konsistensi
Berikan tes sekali. Skor dua bagian setara dengan tes (misalnya, barang-barang
aneh dan bahkan item); koefisien reliabilitas yang benar agar sesuai seluruh tes
dengan rumus Spearman-Brown
Berikan tes sekali. Skor keseluruhan pengujian dan menerapkan rumus KuderRichardson
Ini akan ditarik dari pembahasan sebelumnya kami koefisien korelasi bahwa
hubungan positif yang sempurna ditandai dengan 1,00 dan hubungan nol dengan .
00. Tindakan stabilitas di, 80 dan .90 's biasanya dilaporkan untuk tes standar
kecerdasan dan prestasi atas kesempatan dalam tahun yang sama.
Salah satu faktor penting yang perlu diingat dalam menafsirkan tindakan stabilitas
adalah interval waktu antara tes. Jika interval waktu ini singkat, katakanlah satu
atau dua hari, keteguhan dari hasil akan meningkat oleh kenyataan bahwa murid
akan mengingat beberapa jawaban mereka dari tes pertama yang kedua. Jika
interval waktu yang panjang, katakanlah sekitar satu tahun, hasilnya akan tidak
hanya dipengaruhi oleh ketidakstabilan prosedur pengujian tetapi juga oleh
perubahan aktual dalam murid selama periode waktu. Secara umum, semakin lama
interval waktu antara tes dan tes ulang lebih hasilnya dipengaruhi oleh perubahan
pupil makhluk karakteristik diukur, dan semakin kecil koefisien reliabilitas.
Jam berapa interval antara tes yang paling disukai akan sangat tergantung pada
penggunaan yang akan dibuat dari hasil. Jika kita mencoba untuk memprediksi dari
nilai tes kelas sembilan apakah anak laki-laki cenderung untuk berhasil di perguruan
tinggi, stabilitas selama beberapa tahun cukup penting. Jika kita mencoba untuk
memprediksi apakah dia akan berhasil dalam kursus aljabar tahun ini, stabilitas
selama periode lebih lama dari beberapa bulan yang cukup penting. Dengan
demikian, untuk beberapa keputusan yang kita tertarik pada koefisien reliabilitas
berdasarkan interval panjang antara tes dan tes ulang dan, untuk orang lain,
koefisien reliabilitas berdasarkan interval pendek mungkin cukup. Yang penting

adalah untuk mencari bukti stabilitas yang sesuai dengan penafsiran tertentu yang
akan dibuat.
Kebanyakan guru tidak akan menemukan mungkin untuk menghitung koefisien
reliabilitas test-retest untuk tes kelas mereka sendiri. Namun, dalam memilih tes
standar stabilitas nilai berfungsi sebagai salah satu kriteria penting. Manual tes
harus memberikan bukti stabilitas, menunjukkan interval waktu antara tes dan
setiap pengalaman yang tidak biasa anggota kelompok mungkin memiliki antara
pencobaan. Hal lain dianggap sama (seperti validitas), kita akan mendukung tes
yang nilainya telah terbukti memiliki jenis stabilitas yang kita butuhkan untuk
membuat keputusan suara.
Informasi yang berkaitan dengan stabilitas nilai tes juga memiliki implikasi untuk
penggunaan hasil tes dari catatan sekolah dan frekuensi yang diperlukan pengujian
ulang. Kita tahu, misalnya, bahwa bakat skolastik pertama-kelas nilai tes yang
cukup stabil selama kesempatan dalam tahun yang sama, tetapi relatif stabil
selama beberapa tahun. Dengan demikian, kita dapat berharap untuk
menggunakan hasil tersebut dalam menentukan kesiapan untuk bekerja pertamakelas, tetapi tidak harus bergantung pada mereka untuk perkiraan kemampuan
belajar di kelas-kelas SD nanti. Untuk penggunaan ini, tes kedua perlu diberikan
pada awal periode SD nanti. Demikian pula, ketika menggunakan setiap skor tes
dari catatan permanen, orang harus memeriksa tanggal pengujian dan data
stabilitas yang tersedia untuk menentukan apakah hasilnya masih bisa diandalkan.
Jika ada keraguan dan keputusan penting, pengujian ulang adalah dalam rangka.
Metode Equivalent-Forms. Memperkirakan reliabilitas dengan menggunakan
metode yang setara-bentuk melibatkan penggunaan dua bentuk yang berbeda
namun setara dengan tes (juga disebut paralel atau bentuk-bentuk alternatif). 1
Kedua bentuk tes yang diberikan kepada kelompok yang sama murid dalam suksesi
dekat dan skor tes yang dihasilkan berkorelasi. Koefisien korelasi ini memberikan
ukuran kesetaraan. Dengan demikian, hal ini menunjukkan sejauh mana kedua
bentuk tes yang mengukur aspek perilaku yang sama.
Perlu dicatat bahwa metode setara-bentuk memberitahu kita apa-apa tentang
stabilitas karakteristik murid yang diukur. Koefisien reliabilitas ini mencerminkan
sejauh mana tes merupakan sampel yang memadai dari karakteristik yang sedang
diukur. Dalam pengujian prestasi, misalnya, ada ribuan pertanyaan yang mungkin
ditanyakan dalam tes tertentu. Namun, karena batas waktu dan faktor membatasi
lain, hanya sejumlah pertanyaan tes mungkin dapat digunakan. Jika pertanyaanpertanyaan yang termasuk dalam tes memberikan sampel yang memadai dari
pertanyaan yang mungkin di daerah. Cara termudah untuk memperkirakan apakah
tes mengukur sampel yang memadai dari konten adalah untuk membangun dua
bentuk tes dan mengkorelasikan hasil. Sebuah korelasi yang tinggi menunjukkan
bahwa kedua bentuk mengukur konten yang sama dan oleh karena itu mungkin
sampel yang dapat diandalkan dari wilayah umum konten yang diukur.

Setara-bentuk metode memperkirakan kehandalan tidak jauh dengan masalah sulit


memilih interval waktu yang tepat antara tes seperti yang diperlukan dengan
metode tes-tes ulang. Namun, kebutuhan untuk dua bentuk setara dengan tes
membatasi penggunaannya hampir seluruhnya untuk pengujian standar. Berikut ini
adalah banyak digunakan, karena sebagian besar tes standar memiliki dua atau
lebih bentuk yang tersedia. Bahkan, seorang guru harus melihat dengan kecurigaan
pada setiap tes standar yang memiliki dua bentuk yang tersedia dan tidak
melaporkan informasi mengenai kesetaraan mereka. Komparabilitas hasil dari dua
bentuk tidak dapat diasumsikan kecuali bukti tersebut disajikan.
Metode setara-bentuk kadang-kadang digunakan dengan interval waktu antara
pemberian dua bentuk tes. Dengan kondisi tersebut, koefisien reliabilitas yang
dihasilkan memberikan ukuran stabilitas dan kesetaraan. Ini adalah tes yang paling
ketat keandalan karena mencakup semua sumber variasi dalam nilai tes. Stabilitas
prosedur pengujian, keteguhan dari murid karakteristik yang diukur, dan
keterwakilan sampel tugas yang termasuk dalam ujian semua diperhitungkan.
Akibatnya, ini umumnya direkomendasikan sebagai prosedur bunyi untuk
memperkirakan keandalan skor tes. Seperti dengan. metode tes-tes ulang biasa,
koefisien reliabilitas harus ditafsirkan dalam terang interval waktu antara dua
bentuk tes. Untuk periode waktu yang lebih lama, kita harus biasanya
mengharapkan koefisien reliabilitas yang lebih kecil.
4 bentuk Setara dibangun untuk set yang sama spesifikasi (misalnya, konten
pengujian, kesulitan, dan sebagainya) tetapi dibangun secara mandiri.
Membagi-Half Method. Keandalan skor tes juga dapat diperkirakan dari administrasi
tunggal dari satu bentuk tes. Tes ini diberikan kepada sekelompok siswa dengan
cara biasa dan kemudian dibagi dua untuk keperluan mencetak gol. Untuk membagi
tes menjadi dua bagian yang paling setara, prosedur biasa adalah untuk mencetak
item genap dan item ganjil secara terpisah. Hal ini memberikan dua nilai untuk
setiap murid yang, ketika berkorelasi, memberikan ukuran konsistensi internal.
koefisien ini menunjukkan sejauh mana kedua bagian tes adalah sama.
Sebagaimana dicatat, koefisien reliabilitas di atas ditentukan dengan
menghubungkan nilai dari dua setengah-tes. Untuk memperkirakan keandalan skor
berdasarkan uji full-length rumus Spearman-Brown biasanya diterapkan. Formula ini
adalah sebagai berikut:
2 X Keandalan uji%
Keandalan pada uji penuh = . , p rrrrr jrr "r
1 1 1 + Keandalan pada H uji
Kesederhanaan rumus dapat dilihat dalam contoh berikut di mana koefisien korelasi
antara kedua bagian dari tes adalah .60:

n i. ui. ni, . 2 x .60 1.20 _ Keandalan pada tes penuh = ^ "^ "JGQ ".10
Koefisien korelasi ini dari 75, maka, memberikan perkiraan keandalan. dari tes
penuh di mana setengah-tes berkorelasi .60.
The split-setengah metode adalah mirip dengan metode setara-bentuk dalam hal itu
menunjukkan sejauh mana sampel item tes adalah sampel yang memadai dari
konten yang diukur. Sebuah korelasi yang tinggi antara skor pada kedua bagian tes
menunjukkan kesetaraan dua bagian dan akibatnya kecukupan sampling. Namun,
seperti metode setara-bentuk, ia memberitahu apa-apa tentang perubahan individu
dari satu waktu ke lain.
Kuder-Richardson Metode. Cara lain untuk memperkirakan keandalan skor tes dari
administrasi tunggal dari satu bentuk tes adalah dengan cara formula seperti yang
dikembangkan oleh Kuder dan Richardson. 12 Formula ini juga memberikan ukuran
konsistensi internal , tetapi mereka tidak memerlukan pemisahan tes dalam
setengah untuk tujuan skor. Salah satu formula, yang disebut Kuder-Richardson
Formula 20, didasarkan pada proporsi orang yang lewat setiap item dan standar
deviasi dari nilai keseluruhan. 0 perhitungan ini agak rumit, kecuali informasi sudah
tersedia mengenai proporsi melewati setiap item , tapi theresult sama dengan ratarata semua split-setengah kemungkinan koefisien untuk kelompok diuji.
Sebuah formula kurang akurat tapi lebih sederhana untuk menghitung adalah
Kuder-Richardson Formula 21. Formula ini dapat diterapkan pada hasil dari setiap
tes yang telah mencetak berdasarkan jumlah jawaban yang benar. Sebuah versi
modifikasi dari formula 13 adalah hal, mereka mirip dengan metode setara-bentuk
tanpa interval waktu. Hanya prosedur tes-tes ulang menunjukkan sejauh mana hasil
tes digeneralisasikan atas periode waktu yang berbeda.
Membandingkan Metode Korelasi. Seperti tercantum dalam diskusi kami
sebelumnya, masing-masing metode estimasi reliabilitas memberikan informasi
yang berbeda mengenai konsistensi hasil tes. Ringkasan informasi ini disajikan pada
Tabel 5.2. Tabel ini menjelaskan fakta bahwa sebagian besar metode yang
Keandalan Estimate (KR21) =
M (KM) ' Ks 2
dimana K = jumlah item dalam ujian
M = mean (rata-rata aritmatika) dari skor tes s = deviasi standar dari nilai tes
Formula ini akan menghasilkan kira-kira hasil yang sama seperti Kuder-Richardson
Formula 20, tetapi dalam banyak kasus perkiraan keandalan akan lebih kecil. 14
kepala Keuntungannya adalah kemudahan yang dapat diterapkan.

Perkiraan Kuder-Richardson keandalan berasumsi bahwa item dalam tes homogen.


Artinya, bahwa setiap item tes mengukur kualitas yang sama atau karakteristik
seperti setiap lainnya. Dimana asumsi ini dibenarkan, perkiraan keandalan akan
mirip dengan yang disediakan oleh metode split-half. Jika homogenitas kurang,
seperti pada tes prestasi yang mengukur berbagai jenis hasil belajar, meremehkan
split-setengah reliabilitas akan menghasilkan. 15
Kesederhanaan menerapkan metode split-half dan metode Kuder-Richardson telah
menyebabkan digunakan secara luas dalam memperkirakan kehandalan. Namun,
prosedur konsistensi internal seperti memiliki keterbatasan yang membatasi nilai
mereka. Pertama, mereka tidak cocok untuk dipercepat tests "untuk tes dengan
batas waktu yang mencegah murid dari mencoba setiap item. Di mana kecepatan
adalah faktor yang signifikan dalam pengujian, perkiraan keandalan akan
meningkat ke tingkat yang tidak diketahui. Ini tidak menimbulkan masalah besar
dalam mengestimasi reliabilitas skor tes dari tes buatan guru, karena ini biasanya
tes daya. Dalam kasus tes standar, bagaimanapun, batas waktu jarang begitu
liberal bahwa semua murid menyelesaikan tes. Dengan demikian, ukuran
konsistensi internal yang dilaporkan dalam manual tes harus umumnya diabaikan
kecuali bukti juga disajikan bahwa kecepatan kerja merupakan faktor diabaikan.
Untuk tes dipercepat, reliabilitas diperoleh oleh tes-tes ulang atau setara-bentuk
metode harus dicari.
Keterbatasan kedua prosedur konsistensi internal adalah bahwa mereka tidak
menunjukkan keteguhan respon murid dari hari ke dav-In ini berkaitan dengan
hanya satu atau dua jenis konsistensi dicari dalam hasil tes. Metode tes-tes ulang,
tanpa interval waktu, hanya memperhitungkan konsistensi prosedur pengujian dan
keteguhan jangka pendek respon. Jika interval waktu diperkenalkan antara tes,
keteguhan karakteristik murid dari hari ke hari juga disertakan. Namun, baik dari
prosedur test-retest menyediakan informasi mengenai konsistensi hasil atas sampel
yang berbeda dari item, karena kedua set nilai didasarkan pada tes yang sama.
Setara-bentuk metode tanpa interval waktu, metode split-half, dan metode KuderRichardson semua memperhitungkan konsistensi prosedur pengujian dan
konsistensi hasil atas sampel yang berbeda dari item.
Hanya metode setara-bentuk dengan masa sela antara tes memperhitungkan
semua tiga jenis konsistensi. Ini adalah alasan bahwa ukuran ini stabilitas dan
kesetaraan umumnya dianggap sebagai perkiraan yang paling berguna dari uji
reliabilitas.
standar deviasi. 16 Perlu dicatat bahwa sebagai keandalan koefisien meningkat,
untuk setiap deviasi standar yang diberikan, kesalahan baku pengukuran menurun.
Dengan demikian, koefisien keandalan yang tinggi berhubungan dengan kesalahan
kecil dalam skor tes khusus dan koefisien reliabilitas rendah dikaitkan dengan
kesalahan besar.

Jika uji manual tidak melaporkan kesalahan baku pengukuran, Tabel 5.3 dapat
digunakan untuk memperkirakan standard error. Sebenarnya ini adalah tujuan yang
meja dikembangkan. Semua orang perlu lakukan untuk mendapatkan perkiraan
standard error untuk tes yang diberikan adalah memasukkan kolom dan baris
terdekat dengan koefisien keandalan dan standar deviasi dilaporkan dalam uji
manual. Sebagai contoh, koefisien reliabilitas 0,92 dan deviasi standar 16 akan
menghasilkan kesalahan standar 5.1. Hal ini diperoleh dengan turun kolom kedua
(.90). sampai Anda datang ke baris di mana deviasi standar 16. contoh kami mirip
dengan data yang sering dilaporkan untuk tes kecerdasan kelompok.
Mengakibatkan kesalahan standar kurang lebih sama seperti yang digunakan dalam
ilustrasi kami sebelumnya dengan Mary Smith dan, tentu saja, ditafsirkan dengan
cara yang sama.
Ada beberapa tindakan pencegahan yang harus diingat ketika menggunakan Tabel
5.3 untuk memperkirakan kesalahan baku pengukuran. Pertama, koefisien
keandalan dan deviasi standar harus didasarkan pada kelompok yang sama orang.
Kedua, masuk ke meja dengan koefisien reliabilitas dan standar deviasi terdekat
mereka dalam manual memberi Anda hanya perkiraan kesalahan standar
pengukuran. Ketiga, tabel tidak memperhitungkan fakta bahwa kesalahan baku
pengukuran sedikit bervariasi pada tingkat nilai yang berbeda. Dalam keterbatasan
ini, bagaimanapun, Tabel 5.3 memberikan sebuah metode yang sederhana dan
cepat untuk memperkirakan kesalahan baku pengukuran dan perkiraan yang cukup
akurat untuk aplikasi yang paling praktis dari hasil tes.
Kesalahan standar pengukuran memiliki dua keunggulan khusus sebagai sarana
untuk memperkirakan kehandalan. Pertama, perkiraan dalam satuan yang sama
dengan skor tes. Hal ini memungkinkan untuk langsung menunjukkan margin of
error untuk memungkinkan ketika menafsirkan nilai individu. Kedua, standard error
kemungkinan akan tetap cukup konstan saat Anda pergi dari satu kelompok ke
kelompok. Hal ini tidak benar dari koefisien reliabilitas yang sangat tergantung pada
penyebaran nilai dalam kelompok diuji. Karena kelompok yang reliabilitas
dilaporkan dalam manual tes akan selalu agak berbeda dari kelompok diberikan tes,
keteguhan lebih besar dari kesalahan baku pengukuran memiliki nilai praktis yang
jelas. Kesulitan utama yang dihadapi dengan standard error terjadi ketika kita ingin
membandingkan dua tes yang menggunakan berbagai jenis nilai. Berikut koefisien
reliabilitas adalah satu-satunya ukuran yang sesuai.

Faktor yang Mempengaruhi Ukuran Keandalan 117


Sejumlah faktor telah ditunjukkan untuk mempengaruhi langkah-langkah
konvensional keandalan. 17 Jika kesimpulan suara harus ditarik, faktor-faktor ini
harus dipertimbangkan ketika menginterpretasikan koefisien reliabilitas. Kita telah
melihat, misalnya, bahwa tes dipercepat akan memberikan koefisien reliabilitas

spuriously tinggi dengan metode konsistensi internal memperkirakan kehandalan.


Kami juga telah mencatat bahwa koefisien reliabilitas test-retest dipengaruhi oleh
interval waktu antara pengujian, dengan interval waktu yang lebih pendek
menghasilkan koefisien keandalan yang lebih tinggi. Dengan demikian, dalam
membandingkan koefisien reliabilitas dari dua atau lebih tes kita harus mengambil
faktor-faktor tersebut ke dalam rekening. Meskipun kita mungkin ingin mendukung
tes dengan koefisien reliabilitas tertinggi, kita tidak akan melakukannya jika kita
mengakui bahwa koefisien dilaporkan digelembungkan oleh faktor-faktor yang tidak
relevan dengan konsistensi prosedur pengukuran, Demikian pula, kita mungkin
mendiskon perbedaan antara koefisien reliabilitas yang dilaporkan untuk dua tes
yang berbeda jika kondisi di mana mereka diperoleh disukai tes dengan koefisien
reliabiliy tertinggi.
Pertimbangan faktor yang mempengaruhi keandalan tidak hanya akan membantu
kita menginterpretasikan koefisien reliabilitas tes standar yang lebih bijaksana,
tetapi juga harus membantu kita dalam membangun tes kelas norma-referenced
lebih dapat diandalkan. Meskipun guru jarang menemukan menguntungkan untuk
menghitung koefisien reliabilitas untuk tes mereka membangun, mereka dapat dan
harus mengambil tanggung jawab dari faktor yang mempengaruhi keandalan untuk
memaksimalkan keandalan tes kelas mereka sendiri.
Panjang Test. Secara umum, semakin lama, menguji keandalan yang lebih tinggi.
Hal ini disebabkan oleh fakta bahwa tes lagi akan memberikan contoh yang lebih
memadai perilaku yang diukur dan nilai cenderung menjadi kurang terdistorsi oleh
faktor kebetulan seperti menebak. Misalkan, untuk mengukur kemampuan mengeja,
kami meminta murid untuk mengeja satu kata. Hasilnya akan dia terang-terangan
tidak dapat diandalkan. Murid yang mampu mengeja kata akan spellers sempurna
dan murid yang tidak bisa akan kegagalan lengkap. Jika kita terjadi untuk memilih
kata yang sulit sebagian besar murid akan gagal; jika kata adalah salah satu yang
paling mudah murid akan muncul menjadi spellers sempurna. Fakta bahwa satu
kata memberikan perkiraan yang tidak dapat diandalkan kemampuan mengeja
murid adalah jelas. Ini harus sama-sama jelas bahwa ketika kita menambahkan
kata-kata ejaan ke dalam daftar, kami datang lebih dekat dan lebih dekat dengan
perkiraan yang baik dari kemampuan mengeja setiap anak. Skor didasarkan pada
sejumlah besar kata ejaan lebih cenderung untuk mencerminkan perbedaan nyata
dalam kemampuan mengeja dan karena itu akan lebih stabil. Jadi, dengan
meningkatkan ukuran sampel perilaku ejaan kita meningkatkan konsistensi
pengukuran kami.
Sebuah tes lagi juga cenderung untuk mengurangi pengaruh faktor kesempatan
seperti menebak. Sebagai contoh, pada sepuluh-item tes benar-dan-salah seorang
murid mungkin tahu tujuh item dan menebak tiga lainnya. Dia bisa menebak
dengan benar pada semua tiga item dan memiliki nilai sempurna atau dia bisa
menebak salah pada ketiga item dan berakhir dengan hanya tujuh yang benar. Hal
ini akan mewakili variasi dalam nilai tes-nya karena menebak sendiri. Namun, jika

murid sama ini mengambil tes dengan seratus item benar dan salah tebakan yang
benar itu akan cenderung dibatalkan oleh tebakan yang salah, dan skor akan
menjadi indikasi lebih diandalkan pengetahuan yang sebenarnya.
Fakta bahwa tes lagi cenderung memberikan hasil yang lebih dapat diandalkan
tersirat sebelumnya dalam diskusi kita tentang metode split-setengah. Perlu diingat
bahwa ketika skor dari dua bagian dari tes 'berkorelasi .60 rumus Spearman-Brown
memperkirakan keandalan skor untuk tes full-length menjadi 75. Ini, tentu saja,
adalah setara dengan memperkirakan peningkatan keandalan yang diharapkan
ketika panjang dari tes ini adalah dua kali lipat.
Ada satu reservasi penting dalam mengevaluasi pengaruh panjang uji pada
keandalan nilai, yaitu bahwa laporan kami telah membuat mengasumsikan bahwa
tes akan diperpanjang dengan menambahkan item tes kualitas yang sama seperti
yang sudah di uji. Menambahkan sepuluh kata ejaan yang begitu mudah sehingga
setiap orang akan membuat mereka benar atau menambahkan sepuluh kata ejaan
yang begitu sulit sehingga tak seorang pun akan membuat mereka benar tidak akan
meningkatkan keandalan dari nilai pada tes ejaan norma-referenced. Bahkan tidak
akan ada pengaruh pada koefisien reliabilitas karena penambahan tersebut tidak
akan mempengaruhi berdiri relatif siswa dalam kelompok.
Dalam membangun tes kelas adalah penting untuk diingat pengaruh panjang uji
pada keandalan dan berusaha untuk tes lagi. Dimana tes pendek diperlukan karena
batas waktu atau usia siswa, tes yang lebih sering dapat digunakan untuk
mendapatkan ukuran diandalkan prestasi.
Dalam menggunakan tes standar, kita harus waspada terhadap skor sebagian
didasarkan pada item yang relatif sedikit. Skor tersebut biasanya rendah dalam
kehandalan dan nilai praktis sedikit atau tidak ada. Sebelum menggunakan nilai
seperti manual tes harus hati-hati diperiksa untuk reliabilitas mereka dilaporkan.
Jika ini tidak dilaporkan, atau sangat rendah, skor bagian harus diabaikan dan hanya
total nilai tes harus digunakan.
Penyebaran Skor. Seperti disebutkan sebelumnya koefisien reliabilitas secara
langsung dipengaruhi oleh penyebaran skor pada kelompok diuji. Hal lain dianggap
sama, semakin besar penyebaran skor, semakin tinggi perkiraan keandalan. Karena
koefisien reliabilitas lebih besar terjadi ketika individu cenderung untuk tinggal di
posisi yang relatif sama dalam kelompok, dari satu pengujian ke yang lain, secara
alamiah bahwa apa pun yang mengurangi kemungkinan pergeseran posisi dalam
kelompok juga memberikan kontribusi untuk koefisien reliabilitas lebih besar. Dalam
hal ini perbedaan yang lebih besar antara nilai individu mengurangi kemungkinan
pergeseran posisi. Dengan kata lain, kesalahan pengukuran kurang berpengaruh
pada posisi relatif individu di mana perbedaan di antara anggota kelompok large
"yaitu, di mana ada berbagai penyebaran skor.

Hal ini dapat dengan mudah digambarkan tanpa bantuan statistik. Bandingkan dua
set berikut skor dalam hal probabilitas bahwa individu akan tetap berada di posisi
yang relatif sama pada administrasi kedua tes. Bahkan pemeriksaan sepintas skor
ini akan membuat jelas bahwa orang-orang di Grup B lebih cenderung bergeser
posisi pada pemerintahan kedua tes. Dengan hanya penyebaran sepuluh poin dari
top skor dengan skor bawah, pergeseran radikal dalam posisi dapat hasil dari
perubahan hanya beberapa poin dalam nilai ujian dari orang-orang ini.
Namun, di Grup A nilai tes individu bisa bervariasi oleh beberapa poin, administrasi
kedua tes, dengan sangat sedikit pergeseran dalam posisi relatif dari anggota
kelompok. Penyebaran besar nilai tes di Grup A membuat pergeseran dalam posisi
relatif tidak mungkin, dan dengan demikian memberi kita keyakinan yang lebih
besar bahwa perbedaan-perbedaan di antara anggota kelompok perbedaan nyata.
Grup A

Grup B

95 95

95 95

90 90

94 94

86 86

93 93

82 82

93 93

76 76

92 92

65 65

91 91

60 60

89 89

56 56

88 88

53 53

86 86

47 47

85 85

Ketika membangun tes penguasaan kriteria-direferensikan, penyebaran nilai tidak


relevan karena kita berharap bahwa semua, atau hampir semua, murid akan
mendapatkan nilai sempurna. Ketika mengukur sejauh mana siswa telah
berkembang melampaui penting minimum tentu saja, namun, kami harus berusaha
untuk membangun tes kelas norma-referenced yang dihasilkan Dalam berbagai
penyebaran skor. Dengan cara ini kita dapat memiliki jaminan yang lebih besar
bahwa perbedaan dalam perkembangan murid (di luar tingkat penguasaan)
mencerminkan perbedaan diandalkan dalam prestasi dan bukan perbedaan karena
faktor kebetulan seperti menebak. Untuk mendapatkan penyebaran lebih luas nilai
tes, sebagian besar guru perlu membangun lebih sulit tes norma-referenced. Ini
biasanya harus dilakukan dengan menekankan pengukuran yang lebih kompleks
hasil belajar (misalnya, transfer, pemecahan masalah). Prosedur tersebut akan

cenderung untuk meningkatkan keandalan skor tes dan pada saat yang sama
memiliki pengaruh positif pada validitas. Sewenang-wenang memanipulasi katakata dari item tes, hanya untuk membuat mereka lebih sulit, kemungkinan akan
menghasilkan peningkatan keandalan dengan mengorbankan validitas.
Dalam memilih tes standar, pengaruh penyebaran skor tes pada koefisien
reliabilitas juga harus dipertimbangkan. Sebagai contoh, banyak penerbit uji
melaporkan koefisien reliabilitas dihitung berdasarkan nilai tes selama beberapa
tingkatan kelas. Karena skor gabungan murid dari beberapa tingkatan kelas
memiliki penyebaran yang jauh lebih besar dari nilai daripada yang ditemukan pada
tingkat kelas tunggal, koefisien reliabilitas tersebut spuriously tinggi. Koefisien
reliabilitas ini harus diabaikan ketika memilih tes untuk tingkat kelas tertentu.
Setiap upaya harus dilakukan untuk mendapatkan bukti keandalan pada
sekelompok murid serupa dengan yang kami berencana untuk mengelola tes.
Hanya dengan cara ini kita dapat memiliki beberapa jaminan bahwa koefisien
reliabilitas yang dilaporkan dalam uji manual memberikan perkiraan memuaskan
keandalan tes untuk kelompok tertentu kami murid.
Kesulitan Test. Tes Norm-referenced yang terlalu mudah atau terlalu sulit bagi
anggota kelompok mengambil akan cenderung memberikan nilai keandalan rendah.
Hal ini disebabkan oleh fakta bahwa tes mudah dan sulit menghasilkan penyebaran
terbatas skor. Dalam kasus tes mudah, skor yang berdekatan di ujung atas skala.
Dengan ujian yang sulit, skor dikelompokkan bersama-sama di ujung bawah skala.
Untuk keduanya, namun, perbedaan antara individu-individu yang kecil dan
cenderung tidak bisa diandalkan. Sebuah tes mengacu-norma kesulitan yang ideal
akan mengizinkan skor untuk tersebar di berbagai skala, seperti yang ditunjukkan
pada Gambar 5.1.
Berarti Rentang
Keandalan perkiraan
Implikasi untuk pengujian kelas yang jelas dan disinggung dalam bagian
sebelumnya. Tes prestasi kelas yang dirancang untuk

GAMBAR 5.1. Perbandingan hipotetis distribusi skor tes dan estimasi koefisien
reliabilitas untuk tes norma-referenced 100 butir. (Keandalan dihitung dengan
rumus KR21 asumsi yang wajar standar deviasi.) perbedaan ukuran antara murid
(norma-referenced) harus dikonstruksi sedemikian sehingga skor rata-rata adalah
50 persen benar dan bahwa skor berkisar dari mendekati nol hingga mendekati
sempurna. Sebenarnya, 50 persen yang benar hanya berlaku untuk pendekjawaban jenis item. Untuk pemilihan jenis item, skor rata-rata yang ideal akan lebih
tinggi, karena sebagian dari barang-barang yang bisa menjawab dengan benar
menebak. Pada tes benar-salah, misalnya, siswa dapat diharapkan untuk

mendapatkan 50 persen dari barang-barang yang benar dengan menebak (skor


kesempatan), dan pada tes pilihan ganda lima pilihan skor kesempatan diharapkan
akan menjadi 20 persen yang benar (satu dari lima). Kita bisa memperkirakan
kesulitan rata-rata ideal untuk seleksi tipe dengan mengambil titik tengah antara
skor kesempatan yang diharapkan dan skor maksimum yang mungkin. Dengan
demikian, untuk 100 soal tes benar-salah kesulitan rata-rata ideal akan 75
(pertengahan antara 50 dan 100), dan untuk 100 butir lima pilihan tes pilihan ganda
kesulitan rata-rata ideal akan 60 (pertengahan antara 20 dan 100 ). Membangun tes
yang cocok ini tingkat ideal kesulitan memungkinkan berbagai macam nilai yang
mungkin untuk digunakan dalam mengukur perbedaan antara individu. Seperti
disebutkan sebelumnya, semakin besar penyebaran skor, semakin besar
kemungkinan bahwa perbedaan diukur dapat diandalkan.
Kesulitan item tes dalam tes standar juga harus hati-hati dievaluasi. Dimana tes
telah dirancang untuk beberapa tingkatan kelas tingkat kesulitan biasanya paling
tepat untuk nilai di tengah-tengah rentang. Tes mungkin agak terlalu sulit untuk
tingkat kelas terendah dan sedikit terlalu mudah untuk tingkat kelas tertinggi.
Dengan demikian, pada tingkatan kelas ekstrim yang biasanya dapat
mengharapkan perbedaan antara individu-individu menjadi kurang dapat
diandalkan. Informasi yang berkaitan dengan kesulitan tes, di masing-masing
tingkatan kelas yang ia dirancang, biasanya dapat diperoleh dari uji manual.
Dalam mengevaluasi kesulitan tes standar guru juga harus memperhitungkan
tingkat kemampuan murid-muridnya. Sebuah tes yang kesulitan sesuai untuk ratarata siswa kelas lima mungkin tidak sesuai untuk kelas lima yang mengandung
jumlah yang tidak proporsional dari peserta didik lambat atau murid berbakat.
Kesulitan lebih tepat untuk kelompok tertentu sering dapat diperoleh dengan
menggunakan tes yang dirancang untuk terendah berikutnya atau kelas tertinggi
berikutnya.
Objektivitas. Objektivitas tes mengacu pada sejauh mana skor sama kompeten
memperoleh hasil yang sama. Sebagian besar tes standar kecerdasan dan prestasi
yang tinggi objektivitas. Item tes adalah dari jenis tujuan (misalnya, pilihan ganda),
dan skor yang dihasilkan tidak dipengaruhi oleh pertimbangan atau pendapat
pencetak gol. Bahkan, tes tersebut biasanya dibangun sehingga mereka dapat
secara akurat dicetak oleh pegawai terlatih dan mesin mencetak gol. Dimana
prosedur yang sangat obyektif tersebut digunakan keandalan hasil tes tidak
terpengaruh oleh prosedur penilaian.
Dalam kasus tes kelas dibangun oleh guru, namun, objektivitas mungkin
memainkan peran penting dalam memperoleh langkah-langkah yang dapat
diandalkan prestasi. Dalam pengujian esai, serta dalam penggunaan berbagai
observasional

Metode tes-tes ulang


Metode Equivalent-bentuk (tanpa interval waktu)
Metode Equivalent-bentuk (dengan interval waktu)
Split-setengah metode
Metode Kuder-Richardson
Biasanya memberikan menengah sampai besar koefisien reliabilitas untuk tes yang
diberikan. Mungkin lebih besar dari split-setengah metode jika interval waktu yang
singkat. Koefisien menjadi lebih kecil sebagai interval waktu antara tes meningkat.
Biasanya memberikan menengah sampai besar koefisien reliabilitas untuk tes yang
diberikan. Cenderung lebih rendah dibandingkan dengan metode tes-tes ulang
menggunakan selang waktu singkat.
Biasanya menyediakan terkecil koefisien reliabilitas untuk tes yang diberikan.
Koefisien menjadi lebih kecil sebagai interval waktu antara tes meningkat.
Biasanya menyediakan terbesar koefisien reliabilitas untuk tes yang diberikan.
Perkiraan spuriously tinggi diproduksi untuk tes dipercepat.
Biasanya memberikan perkiraan keandalan yang lebih kecil dari yang diperoleh oleh
split-half method. Perkiraan ini juga digelembungkan oleh kecepatan.
Variasi dalam ukuran koefisien reliabilitas karena metode memperkirakan keandalan
terkait secara langsung dengan jenis konsistensi yang termasuk dalam masingmasing metode. Perlu diingat bahwa metode setara-bentuk dengan interval waktu
intervensi memperhitungkan semua sumber variasi dalam nilai tes dan akibatnya
adalah metode yang paling ketat memperkirakan kehandalan. Dengan demikian,
koefisien reliabilitas yang lebih kecil dapat diharapkan dengan metode ini, dan itu
sangat tidak adil untuk membuat perbandingan langsung dari koefisien reliabilitas
tersebut dengan yang diperoleh dengan metode kurang ketat.
Pada ekstrem yang lain, koefisien reliabilitas yang lebih besar biasanya dilaporkan
untuk metode split-half harus diterima dengan hati-hati. Jika kecepatan merupakan
faktor penting dalam pengujian, split-setengah koefisien reliabilitas harus diabaikan
seluruhnya dan bukti lain keandalan harus dicari.
Keandalan Criterion-Referenced Penguasaan Tes 123
Bila menggunakan tes penguasaan kriteria-direferensikan, keinginan kita untuk
konsistensi pengukuran adalah sama dengan yang untuk tes norma-referenced.
Jadi, kami ingin kinerja seseorang menjadi (1) konsisten dari satu item ke yang lain,
di mana semua item yang mengukur hasil belajar yang sama (konsistensi internal),
(2) konsisten dari satu waktu ke yang lain, di mana hasil pembelajaran diharapkan

memiliki tingkat yang wajar keteguhan (stabilitas); dan (3) konsisten dari satu
bentuk tes yang lain, di mana bentuk-bentuk dimaksudkan untuk mengukur sampel
yang sama dari tugas-tugas belajar (kesetaraan). Sayangnya, kemampuan kita
untuk memperkirakan jenis konsistensi tidak cocok kebutuhan kita akan informasi
tersebut. Sejak tes penguasaan kriteria-direferensikan tidak dirancang untuk
membedakan antara individu-individu, dan dengan demikian variabilitas tidak perlu
hadir dalam skor, perkiraan korelasional tradisional kehandalan adalah tidak pantas.
Ada berbagai upaya untuk mengembangkan langkah-langkah statistik untuk
memperkirakan keandalan tes penguasaan kriteria-direferensikan, tetapi solusi
yang memuaskan belum tercapai. 18
Bila menggunakan tes penguasaan kriteria-direferensikan dalam instruksi kelas, kita
dapat meningkatkan kemungkinan hasil yang dapat diandalkan dengan
menggunakan sampel yang cukup besar item tes untuk setiap hasil belajar yang
akan diukur. Jika hasilnya sangat spesifik dan sangat terstruktur (misalnya,
menambahkan dua angka satu digit), jumlah yang relatif kecil item (katakanlah
lima) mungkin cukup untuk penghakiman diandalkan mengenai penguasaan. Untuk
sebagian besar keputusan penguasaan-nonmastery Namun, sepuluh item untuk
setiap hasil belajar spesifik akan menyediakan minimal lebih diinginkan. Dimana
keputusan instruksional didasarkan pada kurang dari sepuluh item, kita harus
membuat keputusan hanya tentatif
dan mencari verifikasi dari data lain yang tersedia dan dari observasi kelas.
How High Haruskah Keandalan Be? 124
Tingkat keandalan kami menuntut dalam langkah-langkah pendidikan kita sangat
tergantung pada sifat dari keputusan yang akan dibuat. Jika kita akan menggunakan
hasil tes sebagai dasar untuk memutuskan apakah akan meninjau daerah-daerah
tertentu dari materi pelajaran, kita mungkin bersedia untuk 1 menggunakan tes
buatan guru keandalan diketahui. Keputusan kami akan didasarkan pada nilai dari
total kelompok, dan inkonsistensi dalam nilai individu tidak akan mendistorsi
keputusan kami terlalu banyak. Bahkan jika kita keliru dalam keputusan kami, tidak
ada bencana besar akan menghasilkan. Yang terburuk yang bisa terjadi adalah
bahwa siswa akan mendapatkan review yang tidak perlu bahan, atau mereka akan
kehilangan review yang mungkin akan bermanfaat bagi mereka. Di sisi lain, jika kita
akan menggunakan hasil tes sebagai dasar untuk memutuskan mana siswa harus
ditempatkan di kelas khusus untuk cacat mental kita akan menuntut pengukuran
paling dapat diandalkan tersedia. Kita tidak akan puas dengan tes kelompok
intelijen untuk tujuan ini tetapi ingin menggunakan salah satu dari tindakan individu
lebih dapat diandalkan kecerdasan. Kita mungkin juga ingin memperoleh bukti yang
paling dapat diandalkan tersedia mengenai murid yang belajar, pembangunan
sosial, dan penyesuaian sebelum keputusan akhir dibuat. Keputusan ini sangat
penting dan konsekuensi begitu signifikan bahwa kita bersedia mencurahkan waktu
dan biaya untuk meningkatkan keandalan data kami bahkan jika kenaikan tersebut

sedikit. Kami ingin menjadi percaya diri sebagai mungkin bahwa kami akan
membuat keputusan yang tepat ketika kita menempatkan murid di kelas khusus
untuk cacat mental.
Hal ini tidak hanya pentingnya keputusan yang penting, tetapi juga apakah mungkin
untuk mengkonfirmasi atau membalikkan penghakiman di lain waktu. 19
Pengambilan keputusan dalam pendidikan jarang tunggal, tindakan terakhir. Ini
cenderung berurutan di alam, dimulai dengan penilaian agak kasar dan melanjutkan
melalui serangkaian penilaian yang lebih halus. Pada tahap awal pengambilan
keputusan keandalan rendah mungkin cukup lumayan, karena hasil tes yang
digunakan terutama sebagai panduan untuk mengumpulkan informasi lebih lanjut.
Sebagai contoh, berdasarkan tes kelas keandalan dipertanyakan kita mungkin
memutuskan bahwa beberapa murid kami mengalami kesulitan belajar seperti yang
bersifat serius yang mereka membutuhkan bantuan khusus. Keputusan ini
memberikan firasat yang berguna yang dapat dikonfirmasi atau disangkal oleh
pengujian lebih lanjut dengan langkah-langkah lebih diandalkan. Demikian pula,
inventarisasi kepribadian keandalan rendah mungkin berguna sebagai langkah
pertama dalam mendeteksi murid maladjusted, menyediakan mereka dengan skor
yang menunjukkan kemungkinan ketidakmampuan diikuti oleh penelitian yang lebih
intensif. Juga, kelompok skor bakat skolastik hanya stabilitas moderat mungkin
berguna dalam pengelompokan murid SD, karena mereka yang kesalahan klasifikasi
dapat dengan mudah bergeser sebagai bukti baru telah tersedia. Peluang untuk
konfirmasi dan pembalikan penilaian tanpa konsekuensi serius hampir selalu hadir
di tahap awal pengambilan keputusan pendidikan.
Yang penting ketika keandalan rendah, atau tidak dikenal, bukan untuk mengobati
skor seolah-olah mereka sangat akurat. Membuat penilaian tentatif, mencari
konfirmasi data, dan bersedia untuk membalikkan keputusan ketika salah. Beberapa
modifikasi dalam kebijakan sekolah juga mungkin diperlukan. Jika, misalnya,
kemampuan mental terbukti menjadi tidak stabil sampai enam belas usia,
seseorang tidak harus mengadopsi kebijakan klasifikasi yang membuat keputusan
tentang siapa yang akan berencana untuk pergi ke perguruan tinggi pada usia
sebelas tahun. Singkatnya, nilai tes keandalan rendah dapat berguna jika mereka
ditafsirkan dengan hati-hati dan hanya digunakan untuk keputusan reversibel
tentatif. 20
Dimana keputusan ireversibel akhir sedang dilakukan, kita akan, tentu saja,
terdorong untuk mencari informasi yang paling dapat diandalkan tersedia. Kami
tidak ingin beasiswa penghargaan, menolak pelamar perguruan tinggi, atau
melakukan seseorang ke rumah sakit jiwa atas dasar langkah-langkah dengan
keandalan rendah atau dipertanyakan.
Jadi, ketika kami meminta question tersebut "Seberapa tinggi seharusnya
menjadi keandalan? " beberapa pertimbangan harus diperhitungkan. Seberapa
penting adalah keputusan? Apakah yang dapat dikonfirmasi atau terbalik di lain

waktu? Seberapa jauh mencapai yang konsekuensi dari tindakan yang diambil?
Untuk keputusan penting yang ireversibel dan cenderung memiliki pengaruh besar
pada kehidupan murid individual, kita akan membuat tuntutan ketat pada
keandalan dari langkah-langkah yang kita gunakan. Untuk keputusan yang lebih
rendah, dan terutama bagi mereka yang dapat kemudian dikonfirmasi atau terbalik
tanpa konsekuensi serius, kami akan bersedia menerima tindakan kurang dapat
diandalkan. Dengan demikian, tergantung pada seberapa yakin kita perlu tentang
keputusan yang dibuat. Keyakinan yang lebih besar memerlukan keandalan yang
lebih tinggi.
USABILITY 125
Dalam memilih instrumen evaluasi, pertimbangan praktis tidak dapat diabaikan. Tes
biasanya diberikan dan diinterpretasikan oleh guru dengan hanya jumlah minimum
pelatihan dalam pengukuran. Waktu yang tersedia untuk pengujian hampir selalu
terbatas dan dalam kompetisi konstan dengan kegiatan penting lainnya untuk
waktu yang diberikan dalam jadwal sekolah. Demikian juga, biaya pengujian,
meskipun pertimbangan minor, adalah sebagai hati-hati diteliti oleh administrator
anggaran-sadar seperti pengeluaran dana lain sekolah. Ini dan faktor-faktor lain
yang berkaitan dengan oL kegunaan tes dan prosedur evaluasi harus
diperhitungkan ketika memilih instrumen evaluasi. Pertimbangan praktis seperti ini
terutama relevan dalam memilih tes standar untuk program pengujian sekolahlebar.
Ease of Administration Kemudahan Administrasi 126
Dimana tes yang akan diberikan oleh guru atau orang lain dengan pelatihan
terbatas, kemudahan administrasi adalah kualitas sangat penting untuk mencari
dalam uji coba. Untuk tujuan ini arah harus sederhana dan jelas, subyek harus
relatif sedikit, dan waktu tes seharusnya tidak terlalu sulit. Penyelenggara tes
dengan arah yang rumit dan sejumlah subyek kekal tetapi beberapa menit masingmasing adalah tugas berat untuk bahkan pemeriksa berpengalaman. Untuk orang
dengan little'training dan pengalaman, situasi seperti ini penuh dengan
kemungkinan kesalahan dalam memberikan arah, waktu, dan aspek lain dari
administrasi yang mungkin mempengaruhi hasil. Seperti kesalahan administrasi
harus, tentu saja, efek buruk pada validitas dan reliabilitas skor tes yang dihasilkan.
Waktu yang diperlukan untuk Administrasi 126
Dengan waktu untuk pengujian pada premium, kita akan selalu mendukung tes
lebih pendek, hal lain dianggap sama. Dalam hal ini hal-hal lain yang jarang sama,
namun, karena keandalan secara langsung berhubungan dengan panjang tes. Jika
kita mencoba untuk mengurangi terlalu banyak pada waktu yang dialokasikan
untuk pengujian kita cenderung untuk mengurangi secara drastis keandalan nilai
kami. Misalnya, tes dirancang untuk memenuhi periode kelas normal biasanya
menyediakan skor total tes rehability memuaskan, tetapi skor bagian mereka,

diperoleh dari subyek, cenderung dapat diandalkan. Jika kita ingin langkah-langkah
yang dapat diandalkan di wilayah yang dicakup oleh subyek, kita perlu
meningkatkan waktu pengujian kami di daerah masing-masing. Di sisi lain, jika kita
ingin ukuran umum di beberapa daerah, seperti kecerdasan verbal, kita dapat
memperoleh hasil yang dapat diandalkan dalam 30 atau 40 menit dan ada sedikit
keuntungan dalam memperpanjang waktu pengujian. Sebuah prosedur yang aman
adalah untuk membagikan waktu sebanyak yang diperlukan untuk mendapatkan
hasil yang valid dan reliabel dan tidak lebih. Di suatu tempat antara 20 dan 60
menit dari waktu pengujian untuk masing-masing skor individu yang dihasilkan oleh
tes standar mungkin merupakan panduan yang cukup baik.
Kemudahan Scoring 126
Secara tradisional, salah satu aspek yang paling membosankan dan menyusahkan
dari program pengujian sekolah telah menjadi skor tes. Di masa lalu, banyak guru
yang bekerja terlalu keras telah menghabiskan berjam-jam di tugas ini. Untuk
membuat prosedur bahkan lebih memberatkan daripada perlu, arah scoring yang
sering rumit, tes berisi berbagai subyek dan beberapa item tes subyektif, dan
tombol scoring yang rumit. Meskipun skor tes masih merupakan masalah yang
harus diperhitungkan, perkembangan terakhir dalam pengujian telah mereda beban
jauh. Perkembangan ini meliputi (1) kecenderungan menuju tes standar benar-benar
objektif, (2) meningkatkan kejelasan dalam petunjuk untuk mencetak gol dan
meningkatkan kesederhanaan dalam kunci scoring, (3) penggunaan lembar jawaban
yang terpisah, dan (4) mesin gol.
Dalam memilih tes standar, mereka yang membutuhkan jumlah minimal waktu,
keterampilan, dan biaya untuk penilaian harus diberikan preferensi. Penggunaan
lembar jawaban yang terpisah, misalnya, tidak hanya akan memberikan kontribusi
untuk kemudahan mencetak gol, tetapi juga akan mengurangi biaya pengujian
karena fakta bahwa buklet pengujian yang sama dapat digunakan lagi beberapa
kali. Selain itu, jika mesin gol tersedia dengan biaya yang wajar, lembar jawaban
yang terpisah bisa meringankan guru dari tugas ulama menjengkelkan. Faktor-faktor
tersebut harus diperhitungkan pada saat tes ini sedang dievaluasi, dan tidak ada
tes harus dipilih sampai ketentuan penilaian telah diberikan pemikiran yang
mendalam. Hal lain dianggap sama, kita akan mendukung tes yang memberikan
kemudahan dan ekonomi dari skor tanpa mengorbankan akurasi mencetak gol.
Kemudahan Interpretasi dan Aplikasi 127
Dalam analisis akhir, keberhasilan atau kegagalan program pengujian ditentukan
oleh penggunaan yang terbuat dari hasil tes. Jika mereka diinterpretasikan dengan
benar dan diterapkan secara efektif mereka akan memberikan kontribusi untuk
keputusan pendidikan yang lebih cerdas. Di sisi lain, jika hasil tes salah ditafsirkan
atau disalahgunakan atau tidak diterapkan pada semua mereka akan memiliki nilai

yang kecil dan benar-benar dapat membahayakan beberapa individu atau


kelompok.
Informasi yang menyangkut interpretasi dan penggunaan hasil tes biasanya
diperoleh langsung dari uji manual atau panduan yang terkait. Perhatian harus
diarahkan kemudahan yang skor mentah dapat dikonversi menjadi nilai yang berarti
diturunkan, kejelasan dengan yang tabel norma disajikan, dan kelengkapan saran
untuk menerapkan hasil untuk masalah pendidikan. Dimana hasil tes akan
disampaikan kepada murid, atau orang tua mereka, kemudahan interpretasi dan
aplikasi harus diberikan pertimbangan khusus.
Ketersediaan Setara atau Sebanding Formulir 127
Bagi banyak tujuan pendidikan setara bentuk tes yang sama sering diinginkan.
Bentuk setara dari tes mengukur aspek perilaku yang sama dengan menggunakan
item tes yang sama dalam isi, tingkat kesulitan, dan karakteristik penting lainnya.
Dengan demikian, salah satu bentuk tes dapat menggantikan yang lain. Hal ini
memungkinkan untuk menguji murid dua kali dalam suksesi agak dekat tanpa
jawaban mereka pada pengujian pertama mempengaruhi kinerja mereka pada tes
kedua. Keuntungan dari bentuk setara yang mudah terlihat dalam studi gain
prestasi. Di sini kita ingin menghilangkan faktor memori saat menguji murid dua kali
di daerah yang sama prestasi. Bentuk setara dari tes juga dapat digunakan untuk
memverifikasi skor tes dipertanyakan. Sebagai contoh, seorang guru mungkin
merasa bahwa bakat atau prestasi skor tes skolastik terlalu rendah untuk seorang
murid diberikan. Hal ini dapat dengan mudah diperiksa dengan pemberian bentuk
setara tes.
Banyak tes juga menyediakan sebanding bentuk. Tes prestasi, misalnya, biasanya
diatur dalam serangkaian yang meliputi tingkat kelas yang berbeda. Meskipun isi
dan tingkat kesulitan bervariasi, tes pada tingkat yang berbeda dibuat sebanding
dengan skala skor umum. Dengan demikian, adalah mungkin untuk
membandingkan pengukuran di kelas empat dengan pengukuran di kelas enam
pada bentuk yang lebih maju dari tes. Bentuk Sebanding sangat berguna dalam
studi jangka panjang pertumbuhan pendidikan.
Cost Biaya 128
Faktor biaya telah diserahkan kepada yang terakhir karena relatif tidak penting
dalam memilih tes. Alasan untuk membahas sama sekali adalah bahwa kadangkadang diberikan jauh lebih berat daripada yang layak. Pengujian relatif murah, dan
biaya seharusnya tidak menjadi pertimbangan utama. Dalam program pengujian
skala besar di mana tabungan kecil per murid menambahkan, dengan
menggunakan lembar jawaban yang terpisah, mesin gol, dan booklet dapat
digunakan kembali akan mengurangi biaya lumayan. Untuk memilih salah satu tes
bukan yang lain, namun, karena buku uji adalah beberapa sen lebih murah adalah
ekonomi palsu. Setelah semua, validitas dan reliabilitas adalah karakteristik penting

untuk mencari, dan tes kurang dalam kualitas ini terlalu mahal dengan harga
apapun. Di sisi lain, kontribusi yang nilai tes yang valid dan dapat diandalkan dapat
membuat keputusan pendidikan tampaknya menunjukkan bahwa tes tersebut
selalu ekonomis dalam jangka panjang.
SUMMARY RINGKASAN 128
Sebelah validitas, reliabilitas adalah kualitas yang paling penting untuk mencari
dalam hasil evaluasi. Keandalan mengacu pada bagaimana skor tes konsisten dan
hasil evaluasi lainnya adalah dari satu pengukuran ke yang lain. Dalam menafsirkan
dan menggunakan informasi kehandalan, penting untuk diingat bahwa perkiraan
keandalan mengacu pada hasil pengukuran, bahwa cara-cara yang berbeda untuk
memperkirakan keandalan menunjukkan berbagai jenis konsistensi, bahwa suatu
ukuran yang andal tidak selalu berlaku, dan kehandalan yang terutama statistik
konsep. Estimasi reliabilitas dapat dilaporkan dalam hal koefisien reliabilitas atau
kesalahan baku pengukuran.
Koefisien reliabilitas ditentukan dengan beberapa metode yang berbeda dan
masing-masing metode memberikan ukuran yang berbeda dari konsistensi. Metode
tes-tes ulang melibatkan pemberian tes yang sama dua kali untuk kelompok yang
sama dengan interval waktu intervensi, dan koefisien yang dihasilkan memberikan
ukuran stabilitas. Berapa lama interval waktu harus antara tes ditentukan terutama
oleh penggunaan harus terbuat dari hasilnya. Kami akan terutama tertarik pada
koefisien reliabilitas berdasarkan interval sebanding dengan periode waktu yang
tercakup dalam prediksi kami. Metode setara-bentuk melibatkan pemberian dua
bentuk tes untuk kelompok yang sama dalam suksesi dekat atau dengan interval
waktu intervensi. Hasil pertama dalam ukuran kesetaraan, dan yang kedua, dalam
ukuran stabilitas dan kesetaraan. Yang terakhir prosedur menyediakan tes yang
paling ketat keandalan, karena mencakup semua sumber variasi dalam skor tes.
Keandalan juga dapat diperkirakan dari administrasi tunggal dari satu bentuk tes,
baik dengan menghubungkan skor pada dua bagian dari tes atau dengan
menerapkan salah satu formula Kuder-Richardson. Kedua metode memberikan
ukuran konsistensi internal dan mudah diterapkan. Namun, mereka tidak berlaku
untuk tes dipercepat, dan mereka tidak memberikan informasi mengenai stabilitas
nilai tes dari hari ke hari.
Kesalahan standar pengukuran menunjukkan kehandalan dalam hal jumlah variasi
yang diharapkan dalam skor tes individu. Hal ini dapat dihitung dari koefisien
keandalan dan standar deviasi, tetapi sering dilaporkan langsung dalam manual tes.
Standard error ini sangat berguna dalam menafsirkan hasil tes, karena
menunjukkan "band kesalahan" yang mengelilingi setiap skor. Ini juga memiliki
keuntungan dari sisa cukup konstan dari satu kelompok ke kelompok.
Estimasi reliabilitas dapat bervariasi sesuai dengan panjang tes, penyebaran skor
pada kelompok diuji, kesulitan tes, objektivitas skor, dan metode estimasi

reliabilitas. Faktor-faktor ini harus diperhitungkan ketika menilai keandalan


informasi. Tingkat dan jenis reliabilitas harus dicari dalam contoh tertentu terutama
tergantung pada keputusan yang dibuat. Untuk keputusan reversibel tentatif
keandalan rendah mungkin ditoleransi. Namun, untuk keputusan ireversibel akhir
kita harus membuat tuntutan ketat pada keandalan tindakan kita.
Langkah-langkah konvensional reliabilitas didasarkan pada variabilitas antar skor.
Karena variabilitas skor tidak relevan untuk tes kriteria-direferensikan (yaitu, semua
bisa mendapatkan nilai sempurna), cara konvensional untuk memperkirakan
kehandalan yang tidak pantas. Sayangnya, bagaimanapun, teknik khusus
disesuaikan tes penguasaan untuk kriteria-direferensikan belum dikembangkan
secara memadai. Ketika digunakan dalam pengujian kelas, keandalan tes tersebut
dapat ditingkatkan dengan menggunakan jumlah yang cukup besar item tes
(sepuluh atau lebih) untuk setiap hasil belajar tertentu yang akan diukur.
Selain validitas dan reliabilitas mereka, juga penting untuk mempertimbangkan
kegunaan dari tes dan instrumen evaluasi lainnya. Ini termasuk fitur praktis seperti
kemudahan administrasi, waktu yang dibutuhkan, kemudahan mencetak,
kemudahan interpretasi dan aplikasi, ketersediaan bentuk setara atau sebanding,
dan biaya.
BELAJAR LATIHAN
Bandingkan validitas dan reliabilitas berkaitan dengan (a) arti dari setiap konsep,
(b) kepentingan relatif dari masing-masing dalam proses evaluasi, dan (c) sejauh
mana masing-masing tergantung pada kehadiran yang lain.
Yang metode khusus untuk memperkirakan keandalan akan memberikan informasi
yang paling berguna untuk setiap hal berikut? Why? Mengapa?
a. a. Memilih tes bakat skolastik.
b. b. Memilih tes prestasi.
c. c. Menggunakan skor aptitude diperoleh dua tahun sebelumnya.
d. d. Menentukan apakah tes ini mengukur sifat homogen.
3. 3. Apa pengaruh akan berikut kemungkinan besar memiliki pada keandalan
tes mengacu-norma?
a. a. Menghapus item yang terlalu sulit bagi siswa.
b. b. Menghapus item yang begitu sederhana semua murid bisa menjawab dengan
benar.
c. c. Menghapus item yang ambigu.

d. d. Mengubah dari tes pilihan ganda untuk tes esai yang mencakup sama
material. material.
Berapakah nilai relatif dari menggunakan kesalahan baku pengukuran atau
koefisien reliabilitas untuk mengekspresikan keandalan skor tes? Untuk yang
bertujuan masing-masing paling berguna?
Menggunakan Tabel 5.3, menentukan kesalahan baku pengukuran untuk satu set
nilai tes dengan standar deviasi 16 dan keandalan .83.
Pelajari bagian keandalan manual tes untuk beberapa tes bakat skolastik. Apa jenis
data keandalan dilaporkan? Dari apa nilai adalah jenis data dalam memutuskan
apakah akan memilih tes?
Konsultasikan bagian keandalan Standar Pendidikan dan Tes Psikologi (lihat daftar
bacaan untuk bab ini) dan meninjau jenis informasi yang manual tes harus berisi.
Bandingkan manual tes baru-baru terhadap Standar.
Dalam meninjau data keandalan dalam uji manual guru mencatat koefisien
reliabilitas berikut:
a. a. Korelasi Formulir A nilai tes selama suatu interval satu bulan = .90.
b. b. Korelasi Form A dengan Form B nilai tes selama suatu interval satu bulan
= .85
c. c. Korelasi skor tes didasarkan pada dua bagian (ganjil-genap) Formulir A
= .95.
Bagaimana Anda menjelaskan perbedaan-perbedaan dalam koefisien reliabilitas
(menganggap bahwa kelompok-kelompok yang diuji sama)? Yang estimasi
reliabilitas memberikan informasi yang paling berguna? Why? Mengapa?
9. 9. Daftar dan jelaskan secara singkat sebagai banyak hal yang Anda bisa
memikirkan bahwa kelas
guru yang mungkin dilakukan untuk meningkatkan keandalan kelas normareferenced nya
tests. tes. Bagaimana daftar berbeda untuk tes penguasaan kriteria-direferensikan?
10. Asumsikan Anda memilih baterai tes prestasi standar untuk diberikan setiap
tahun dari kelas empat sampai dua belas. Daftar di urutan pentingnya semua
karakteristik tes yang harus dipertimbangkan dan memberikan alasan untuk
penempatan tertentu dari setiap karakteristik dalam daftar Anda.
SARAN UNTUK BACAAN LEBIH LANJUT
Amerika Psychological Association. Standar Pendidikan dan Tes Psikologi.
Washington, DC:. APA, 1974 Lihat bagian tentang keandalan (halaman 48-55) untuk

deskripsi dari tipe dasar dan sifat informasi keandalan harus dicari dalam uji
manual.
Anastasi , A. Psychological Testing, 4th ed. New York: Macmillan Publishing Co, Inc,
1976 Bab. 5, "Keandalan." Menjelaskan berbagai jenis koefisien reliabilitas,
kesalahan standar pengukuran, dan faktor-faktor yang mempengaruhi keandalan.
Termasuk bahan pada keandalan tes kriteria-direferensikan.
Bauernfeind , RH Membangun Testing Program Sekolah, 2nd ed. Boston: Houghton
Mifflin Company, 1969 Bab 6,. "Konsep Keandalan." A, diskusi yang jelas sederhana
dari jenis dasar keandalan.
Cronbach , LJ Essentials of Psychological Testing, 3rd ed. New York:. Harper dan Row,
Publishers, 1970 Bab 6, "Karakteristik lainnya Diinginkan di Tes." Sebuah
pengobatan lanjutan keandalan dengan penekanan pada "generaliz-kemampuan"
dari hasil tes dan penggunaan analisis metode varians.
Stanley , JC "Keandalan," Bab 13 di RL Thorndike (ed.), Pendidikan Pengukuran.
Washington, DC: American Council on Education 1971 Sebuah pengobatan lanjutan
keandalan yang agak teknis..
Uji Buletin
Diedehich , P. Short-Cut Statistik untuk Guru-Made Tes. Princeton, NJ:. Educational
Testing Service 1973 Hadirkan metode sederhana untuk memperkirakan standard
error dan koefisien reliabilitas.
Doppelt , JE Hotu Akurat Apakah Test Score? Uji Service Bulletin, No 50 New York:..
The Psychological Corporation, 1956 Menjelaskan kesalahan baku pengukuran.
PART PART
ii ii
Membangun Tes Kelas
1 American Psychological Association, Standar Pendidikan dan Tes Psikologi
(Washington, DC: APA, 1974).
2 Koefisien korelasi juga dapat ditentukan oleh teknik momen-produk yang lebih
mudah untuk diterapkan ke kelompok besar. Lihat panduan komputasi dalam
Lampiran A.
3 Sebuah koefisien "1.00 juga akan memberi kita prediksi yang sempurna dari
satu variabel yang lain tetapi dalam pengukuran pendidikan kita yang paling sering
berkaitan dengan hubungan yang positif.

4 L. J. Cronbach, Essentials of Psychological Testing, 3rd ed. (New York-Harper dan


Row, 1970). r r
5 5 LJ Cronbach dan PE Meehl, "Membangun Validitas dalam Tes Psikologi,"
Psychological Bulletin, 52, 281-302, 1955.
6 6 GC Helmstadter, Prinsip Psikologis Pengukuran (New York: Appleton7Do tidak membingungkan kriteria-direferensikan pengujian dan kriteria-terkait
validitas. Kriteria di bekas mengacu pada jenis perilaku (seperti yang dijelaskan
dalam instructional'objectives) bahwa nilai tes mewakili. Kriteria di kedua mengacu
pada beberapa ukuran kedua kinerja yang nilai tes adalah untuk memprediksi atau
memperkirakan.
8 WJ Popham dan TR Husek, "Implikasi dari Criterion-Referenced Measurement," di
WJ Popham (ed.), Kriteria-Referensi Pengukuran (Englewood Cliffs, NJ: Teknologi
Pendidikan Publications, 1971).
9 LJ Cronbach, Essentials of Psychological Testing, 3rd ed. (New York: Harper dan
Row, 1970).
11 11 Amerika Psvchological Association, Standar Pendidikan dan Tes Psikologi
(Washington, DC: APA, 1974).
Test-Retest Method. Untuk memperkirakan keandalan dengan menggunakan
metode tes-tes ulang tes yang sama diberikan dua kali untuk kelompok yang sama
murid dengan interval waktu tertentu antara dua administrasi tes. Hasil skor tes
berkorelasi, dan koefisien korelasi ini memberikan ukuran stabilitas; yaitu, ini
menunjukkan seberapa stabil hasil tes selama periode waktu tertentu. Jika hasilnya
sangat stabil, mereka murid yang tinggi pada salah satu administrasi tes akan
cenderung tinggi pada administrasi lain dari tes, dan siswa yang tersisa akan
cenderung untuk tinggal di posisi relatif sama mereka pada kedua administrasi tes .
Stabilitas tersebut akan ditunjukkan dengan koefisien korelasi yang besar.
12 J. C. Stanley, "Keandalan," di RL Thorndike (ed.), Pendidikan Pengukuran
(Washington, DC: American Council on Education, 1971).
0 Standar deviasi adalah ukuran penyebaran skor. Lihat Lampiran A untuk metode
komputasi.
13 LJ Cronbach, Essentials of Psychological Testing, 3rd ed. (New York: Harper dan
Row, 1970).
14 14 LJ Cronbach, Essentials of Psychological Testing, 3rd ed. (New York: Harper
dan Row, 1970).

15 15 Konsistensi internal juga dapat ditentukan oleh koefisien alpha dan analisis
dari
16 Standar deviasi adalah ukuran penyebaran skor. Lihat Lampiran A untuk metode
komputasi.
17 Seperti disebutkan sebelumnya, langkah-langkah ini terutama berguna dengan
norma-referenced tes, di mana tujuannya adalah untuk membedakan antara
individu-individu.
18 RK Hambleton dan MR Novick, "Menuju Integrasi Teori dan Metode Pengujian
Kriteria-Referenced," Journal of Educational Measurement, 10, 159-170, Fall 1973.
19 LJ Cronbach, Essentials of Psychological Testing, 3rd ed. (New York: Harper dan
Row, 1970).
20 Tes Guru buatan umumnya memiliki reliabilitas suatu tempat antara .60 dan .85,
misalnya, tetapi ini berguna untuk jenis keputusan instruksional biasanya dibuat
oleh guru.

Original text
Contribute a better translation

Вам также может понравиться

  • Kata Pengantar
    Kata Pengantar
    Документ1 страница
    Kata Pengantar
    Yun Ita
    Оценок пока нет
  • Cover
    Cover
    Документ1 страница
    Cover
    Yun Ita
    Оценок пока нет
  • Daftar Isi
    Daftar Isi
    Документ1 страница
    Daftar Isi
    Yun Ita
    Оценок пока нет
  • Makalah Syarifah
    Makalah Syarifah
    Документ16 страниц
    Makalah Syarifah
    Yun Ita
    Оценок пока нет
  • Makalah Junike
    Makalah Junike
    Документ12 страниц
    Makalah Junike
    Yun Ita
    Оценок пока нет
  • Makalah Junike
    Makalah Junike
    Документ12 страниц
    Makalah Junike
    Yun Ita
    Оценок пока нет
  • Makalah Geologi KLMPK 1 Isra
    Makalah Geologi KLMPK 1 Isra
    Документ10 страниц
    Makalah Geologi KLMPK 1 Isra
    Yun Ita
    Оценок пока нет
  • Relativitas Waktu Makalah MUSLINA
    Relativitas Waktu Makalah MUSLINA
    Документ34 страницы
    Relativitas Waktu Makalah MUSLINA
    Yun Ita
    100% (1)
  • Translete Tugas Chapter 16
    Translete Tugas Chapter 16
    Документ20 страниц
    Translete Tugas Chapter 16
    Yun Ita
    Оценок пока нет
  • Cover
    Cover
    Документ1 страница
    Cover
    Yun Ita
    Оценок пока нет
  • Relativitas Waktu Makalah MUSLINA
    Relativitas Waktu Makalah MUSLINA
    Документ34 страницы
    Relativitas Waktu Makalah MUSLINA
    Yun Ita
    100% (1)
  • Translate Copyright
    Translate Copyright
    Документ55 страниц
    Translate Copyright
    Yun Ita
    Оценок пока нет
  • Tugas Bab 3 Prof Yus
    Tugas Bab 3 Prof Yus
    Документ22 страницы
    Tugas Bab 3 Prof Yus
    Yun Ita
    Оценок пока нет
  • Makalah Syarifah
    Makalah Syarifah
    Документ16 страниц
    Makalah Syarifah
    Yun Ita
    Оценок пока нет
  • Yunus 5 (Konsep IPA) EKA
    Yunus 5 (Konsep IPA) EKA
    Документ18 страниц
    Yunus 5 (Konsep IPA) EKA
    Yun Ita
    Оценок пока нет
  • Translete Tugas Chapter 16
    Translete Tugas Chapter 16
    Документ20 страниц
    Translete Tugas Chapter 16
    Yun Ita
    Оценок пока нет
  • Inovasi Dek Yun
    Inovasi Dek Yun
    Документ21 страница
    Inovasi Dek Yun
    Yun Ita
    Оценок пока нет
  • Daftar Isi
    Daftar Isi
    Документ1 страница
    Daftar Isi
    Yun Ita
    Оценок пока нет
  • VALIDITAS
    VALIDITAS
    Документ15 страниц
    VALIDITAS
    Yun Ita
    Оценок пока нет
  • Tugas Bab 3 Prof Yus
    Tugas Bab 3 Prof Yus
    Документ22 страницы
    Tugas Bab 3 Prof Yus
    Yun Ita
    Оценок пока нет
  • Cover
    Cover
    Документ1 страница
    Cover
    Yun Ita
    Оценок пока нет
  • Presentation 1
    Presentation 1
    Документ10 страниц
    Presentation 1
    Yun Ita
    Оценок пока нет
  • Sumber
    Sumber
    Документ20 страниц
    Sumber
    Yun Ita
    Оценок пока нет
  • Tugas Bab 3 Prof Yus
    Tugas Bab 3 Prof Yus
    Документ22 страницы
    Tugas Bab 3 Prof Yus
    Yun Ita
    Оценок пока нет
  • Translate Copyright
    Translate Copyright
    Документ55 страниц
    Translate Copyright
    Yun Ita
    Оценок пока нет
  • PP Presentasi Modul Yunita
    PP Presentasi Modul Yunita
    Документ14 страниц
    PP Presentasi Modul Yunita
    Yun Ita
    Оценок пока нет
  • SIANG DAN MALAM DI AL-QUR'AN
    SIANG DAN MALAM DI AL-QUR'AN
    Документ19 страниц
    SIANG DAN MALAM DI AL-QUR'AN
    Yun Ita
    Оценок пока нет
  • Cover
    Cover
    Документ1 страница
    Cover
    Yun Ita
    Оценок пока нет
  • Translate Bab 4 Validasi
    Translate Bab 4 Validasi
    Документ15 страниц
    Translate Bab 4 Validasi
    Yun Ita
    Оценок пока нет