Академический Документы
Профессиональный Документы
Культура Документы
cara kita dapat memiliki kepastian bahwa kita mengevaluasi kemajuan murid
menuju hasil yang kami telah terpilih sebagai tujuan instruksional kami.
Proses yang berkaitan dengan teknik evaluasi hasil belajar spesifik pada dasarnya
adalah salah satu analisis yang logis dan penilaian. Proses ini dapat sangat
difasilitasi, namun, dengan penggunaan beberapa rencana evaluasi yang
sistematis.
RENCANA EVALUASI UMUM 61
Apakah guru adalah memutuskan pada prosedur evaluasi untuk unit kerja, kerja
semester, atau urutan kursus, beberapa rencana evaluasi umum yang diinginkan.
Minimal, rencana ini harus mencakup daftar hasil pembelajaran yang diinginkan dan
teknik yang akan digunakan dalam mengevaluasi kemajuan mereka. Tabel berikut,
berdasarkan beberapa tujuan yang dikembangkan oleh Mr Brown, guru biologi kelas
sepuluh kami, menggambarkan prosedur untuk mengembangkan rencana umum.
Sistem penomoran adalah bahwa yang digunakan oleh Mr Brown dan membantu
mengidentifikasi masing-masing tujuan dalam daftar aslinya (lihat Tabel 2.1). Grafik
evaluasi lengkap akan, tentu saja, mencakup semua tujuan dan hasil pembelajaran
yang spesifik diidentifikasi oleh Mr Brown.
Mr Browns grafik untuk rencana evaluasi umum menjelaskan sejumlah poin penting
tentang hubungan antara tujuan instruksional dan prosedur evaluasi. Untuk satu
hal, itu membuat jelas fakta bahwa hasil belajar tertentu, dinyatakan dalam hal
perilaku murid, begitu banyak dan beragam bahwa tidak ada teknik evaluasi
tunggal mungkin bisa memberikan bukti yang memadai tentang prestasi mereka.
Meskipun tes objektif yang ditunjukkan untuk banyak hasil belajar, daftar periksa,
catatan anekdot, dan teknik observasi lainnya juga sering disebutkan. Diagram ini
juga menyoroti pentingnya pernyataan yang jelas dari tujuan dan hasil
pembelajaran dalam memilih teknik evaluasi. Bahkan, ketika hasil pembelajaran
secara jelas dinyatakan dalam hal perilaku murid, mereka tidak hanya menunjukkan
apa yang harus dievaluasi, tetapi mereka juga menyarankan bagaimana untuk
mengevaluasi. Sebagai contoh, kalimat "1.1 Mendefinisikan istilah umum"
memberikan indikasi jenis teknik evaluasi yang harus digunakan. Hal ini
menunjukkan bahwa murid harus memberikan definisi sendiri. Oleh karena itu, tes
jawaban singkat, di mana murid diberikan istilah yang dipilih dan diminta untuk
mendefinisikan mereka, adalah teknik yang paling tepat evaluasi. Item tes objektif,
seperti pertanyaan pilihan ganda, di mana murid harus hanya mengidentifikasi
definisi, akan tidak memadai untuk mengevaluasi hasil belajar ini, seperti yang
dinyatakan. Tentu saja, hasil belajar yang spesifik dapat disajikan kembali untuk
membaca "Mengidentifikasi makna umum
Teknik Evaluasi
Tujuan
Idealnya, perencanaan untuk evaluasi harus terjadi pada waktu yang sama dengan
rencana lain yang dibuat untuk kursus, ketika hal ini dilakukan, guru kadang-kadang
meliputi tujuan pengajaran, metode pengajaran, dan teknik evaluasi bersama-sama
dalam satu rencana. Bagan berikut ini merupakan versi sederhana dari rencana
untuk tujuan Mr Whiteside dalam penalaran aritmatika di tingkat kelas empat:
****Pengajaran Metode
Menyajikan siswa dengan berbagai masalah cerita yang mengandung fakta-fakta
lebih dari yang diperlukan agar siswa memperoleh latihan dalam mengidentifikasi
masalah, dan memilih fakta yang relevan serta dalam menghitung jawaban.
Murid menunjukkan kemampuan penalaran aritmatika ketika ia:
Mengidentifikasi masalah (apa yang diketahui).
Mengidentifikasi fakta yang diketahui relevan.
Mengidentifikasi proses aritmatika yang berhubungan dikenal dengan diketahui.
Memecahkan masalah kuantitatif menggunakan langkah-langkah di atas.
Termasuk tujuan, metode pengajaran, dan teknik evaluasi dalam satu rencana
umum menyoroti keterkaitan antara aspek ini mengajar di kelas dan meyakinkan
bahwa perencanaan untuk evaluasi akan dilakukan pada awal kursus.. Dalam
menggunakan prosedur ini, bagaimanapun, kita harus berhati-hati untuk tidak
mencoba untuk menghubungkan metode pengajaran terlalu dekat dengan tujuan
instruksional. Salah satu metode (misalnya, diskusi kelas) mungkin berhubungan
dengan berbagai tujuan, seperti pengetahuan, pemahaman, keterampilan
komunikasi, dan penyesuaian social. Demikian pula, satu tujuan (misalnya,
penghargaan) dapat menjadi hasil akhir dari serangkaian pengalaman yang
membutuhkan banyak metode pembelajaran.. Dalam keterbatasan ini, rencana
seperti yang dikembangkan oleh Mr Whiteside dapat menambahkan arah umum
untuk kedua pengajaran dan proses evaluasi.
instruksi tercantum di bagian atas meja, dan semua bidang utama dari konten yang
terdaftar di sisi meja. Sel-sel dalam tabel yang digunakan untuk menunjukkan
jumlah item tes harus siap untuk setiap hasil dari instruksi dan untuk
menggambarkan bagaimana hasil nontest akan dievaluasi. Sebuah versi sederhana
dari tabel tersebut, untuk unit cuaca dalam ilmu SMP, disajikan pada Tabel 3.1.
Ini akan dicatat dalam Tabel 3.1 bahwa dari lima puluh item dalam tes, dua belas
akan mengukur "pengetahuan tentang simbol dan istilah." Dua dari dua belas item
akan peduli dengan "tekanan udara," empat dengan "angin," dua dengan "suhu,"
dua dengan "kelembaban dan curah hujan," dan dua dengan "awan.". Angka-angka
di kolom lain yang harus dibaca dengan cara yang sama. Karena hasil keterampilan
memerlukan evaluasi kinerja, kolom tersebut berisi deskripsi singkat tentang
prosedur evaluasi yang akan digunakan.
Penekanan relatif yang diberikan kepada masing-masing tujuan dan setiap area
konten dalam tabel spesifikasi harus, tentu saja, mencerminkan penekanan
diberikan selama instruksi. Mereka hasil belajar yang menekankan sebagai lebih
penting, dan yang lebih banyak waktu instruksional dikhususkan, harus diberikan
bobot yang lebih besar dalam rencana evaluasi. Dalam tabel ilustrasi kami,
misalnya, dua hasil keterampilan ditugaskan 50 persen dari evaluasi keseluruhan
(persen 25 per masing-masing) dan empat tujuan yang akan dievaluasi dengan tes
kertas dan pensil ditugaskan 50 persen lainnya '( 10 sampai 16 persen masingmasing).
Tabel spesifikasi sering hanya menyertakan tujuan yang dapat diukur dengan tes
kertas dan pensil (lihat Tabel 6.2 dalam Bab 6), namun, ada beberapa keuntungan
untuk termasuk semua tujuan instruksional dalam tabel. Hal ini menjelaskan peran
penting dari pengujian dalam proses evaluasi total tetapi, pada saat yang sama,
mencegah penekanan yang berlebihan pada prosedur pengujian. Setiap teknik
evaluasi dipandang dalam perspektif yang benar.
Beberapa guru lebih memilih untuk memperluas tabel spesifikasi dengan
memasukkan hasil pembelajaran yang spesifik untuk setiap tujuan instruksional
umum dan dengan daftar garis yang lebih rinci tentang isi kursus. Ini adalah
pendekatan yang diinginkan asalkan jumlah spesifik tidak menjadi tidak terkendali.
Hal ini lebih layak di mana tabel spesifikasi didasarkan pada unit instruksi (seperti
dalam evaluasi formatif) daripada di mana tabel ini didasarkan pada hasil yang
diharapkan dari seluruh program (seperti dalam evaluasi sumatif).
MENGGUNAKAN DAFTAR SPESIFIKASI 64
Tipe lain dari rencana evaluasi adalah bahwa disediakan oleh grafik dua arah
disebut tabel spesifikasi. Grafik tersebut berhubungan tujuan instruksional dengan
isi kursus dan menentukan penekanan yang akan diberikan kepada masing-masing
jenis hasil belajar. Dimana tabel adalah untuk melayani sebagai rencana evaluasi
umum, semua tujuan instruksional umum untuk unit atau kursus
BERKAITAN DENGAN ITEM TES KHUSUS BELAJAR HASIL
Tabel spesifikasi menunjukkan jumlah item tes yang akan dikhususkan untuk
masing-masing tujuan instruksional umum. Ini adalah langkah pertama dalam
prosedur pengujian yang berkaitan dengan tujuan dan yang signifikan karena
memberikan beberapa
kami
jaminan bahwa setiap tujuan akan diwakili dalam tes sesuai dengan kepentingan
relatifnya. Pertanyaan utama, namun, dalam berhubungan prosedur pengujian
untuk tujuan, adalah: Apakah tanggapan murid disebut ditetapkan oleh item tes
langsung relevan dengan perilaku ditentukan oleh hasil pembelajaran yang spesifik?
Klarifikasi Tanggapan Murid diharapkan
Kita dapat meningkatkan kepastian bahwa barang-barang kami uji menimbulkan
perilaku murid yang relevan dengan lebih memperjelas respon murid diharapkan
untuk setiap hasil belajar tertentu. Hal ini dapat dilakukan di salah satu cara
berikut:
Menambah tingkat ketiga kekhususan untuk daftar tujuan.
Menentukan kata kerja yang digunakan dalam hasil pembelajaran yang spesifik.
Gunakan item tes sampel untuk menggambarkan hasil yang diharapkan.
Masing-masing metode akan dibahas pada gilirannya.
Arti dari setiap hasil belajar yang spesifik dapat lebih diperjelas dengan membuat
daftar beberapa, atau semua, dari tugas-tugas tertentu siswa diharapkan untuk
melakukan dalam menunjukkan pencapaian hasilnya. Hal ini akan memberikan tiga
tingkat untuk setiap tujuan instruksional, sebagai berikut:
1. Tahu bagian-bagian pidato dalam bahasa Inggris.
1.1 Mengidentifikasi kata benda dalam kalimat.
Menggarisbawahi setiap kata benda.
Mengelilingi setiap benda umum.
Menambahkan tingkat ketiga kekhususan seperti ini mungkin berguna untuk
memperjelas beberapa hasil belajar. Tugas spesifik menggambarkan dengan tepat
apa yang siswa akan lakukan untuk menunjukkan bahwa mereka dapat
mengidentifikasi kata benda. Perlu dicatat, bagaimanapun, bahwa hasil kami yang
dimaksud adalah masih identifikasi kata benda. Proses menggarisbawahi dan
mengelilingi hanya perilaku kita bersedia untuk digunakan sebagai indikator dari
kemampuan untuk mengidentifikasi. Dengan demikian, tingkat ketiga menyediakan
transisi antara hasil belajar tertentu dan item tes, tetapi perilaku tertentu tidak hasil
pembelajaran di kanan mereka sendiri (yaitu, Dalam contoh kita, kita tidak tertarik
untuk mengajar siswa bagaimana untuk menggarisbawahi dan mengepung,
melainkan cara untuk mengidentifikasi. Kami menganggap mereka sudah bisa
melakukan yang pertama.) tingkat ketiga ini kekhususan menyoroti salah satu
keuntungan menggunakan tingkat tujuan, daripada daftar tugas tertentu, untuk
menggambarkan hasil yang diharapkan dari instruksi. Dengan tingkat, kita
cenderung untuk mengacaukan hasil yang diharapkan dari instruksi dengan
indikator hasil tersebut. Cara lain untuk menjelaskan respon murid yang diharapkan
adalah untuk mendefinisikan, atau
bO . bo.
'Ei 'Ei
I 2 E co I 2 E co
^ 8 S 43 i3 " o ^ 8 S 43 i3 " o
V i3 bio * V i3 bio *
43 43
bo bo
15 15
ee
9 g I 9 GA I
ft o ft o
s 2 -s 2
a
U 3 ' 43 -a U 3 '43-a
go S pergi S
u 'bO 'P u 'bo' P
CO CO
.ao s bp . Ao -s bp
==^S4j == ^ S4j
O tj w co O tj w " co
CD CD
-.2 - .2 3 a 3 a
43 43 ft ft
2 - 2- " o "O
O M j3 O M j3
V CO -V CO CO Q CO Q
C/J C / J
.a 3 . 3
. . Eo Eo
h ZQ h ZQ
bo bo
cc
<i 3 c c <I 3 c c
g co g co
co co
s5s5
^a^A
oa) oa)
"1-8 2* "1-8 Februari *
CO CA CO CA
Is .& Apakah. &
> bO > Bo
ts i>H ts i> H co .5 co .5
co c co c
3 CO 3 CO
DD
1|1|
43 bp bO*^ .S 43 bp bo * ^. S
I! -I! rS 3 rS 3
|^43 | ^ 43
.2 o ft .2 O ft
oo ^ so g rt -i S 2 s oo ^ jadi g rt-i S 2 s
3 4= 3 4 =
03 ft 03 ft
P ^ P ^
bO bo
CO CO
ococ
CO CO
cc
ft ft
"I "Saya
co co Go Pergi
oo
CO CO JR JR
^ ^ CO CO
CO fe CO fe
sp s sp s
las las
33
C O CJ C O CJ
ft ft t3 t3
CO T3 CO T3
E '3 E '3
ca kira-kira
2 2 e e
ca kira-kira c^ c ^
* CO * CO E E
43 43 - a - A
*> *> <u <U
ft ft ft ft
. 3 . 3 CO CO
! ! 13 13 <a <A
i S i sa -c -C
t3 t3
V* 4 o V * 4 o
o 15 o 15
(3 CO (3 CO
co 53 co 53
c E ts> c E ts>
Vi Vi
CO ^1 CO ^ 1
EO o EO o
3 S o .2 3 S o .2
botj botj
CD CD
ie -ie
;; CD ;; CD
3 "n - 3 "n - bo IB . bo IB.
8 e^- 8 e ^ =a = A
13.2? 13.2?
^ MC C 4) rt ^ MC C 4) rt
Mempersiapkan item tes yang secara langsung relevan dengan hasil belajar yang
spesifik yang akan diukur terutama soal pencocokan perilaku ditentukan oleh hasil
yang diinginkan dan perilaku diukur dengan item tes. Menyatakan hasil sespesifik
mungkin dan mendefinisikan kata kerja secara lebih rinci keduanya berguna dalam
hal ini, namun proses ini masih menjadi bahan analisis dan penilaian. Jika hasil
belajar tertentu panggilan untuk memasok jawaban (misalnya, nama,
mendefinisikan), item tes juga harus mensyaratkan bahwa jawabannya akan
diberikan (bukan dipilih). Jika hasil belajar tertentu panggilan untuk mengidentifikasi
prosedur, item tes harus peduli hanya dengan proses identifikasi (bukan dengan
hasil yang lebih kompleks). Jika hasil belajar tertentu panggilan untuk melakukan
prosedur, item tes harus memerlukan kinerja yang sebenarnya (bukan deskripsi
verbal bagaimana melakukannya). Isu-isu seperti ini menyoroti perawatan yang
diperlukan dalam menentukan apakah ada kecocokan yang baik antara hasil behaviorally dinyatakan dan respon yang diharapkan ke item tes.
Prosedur untuk membangun item tes akan dipertimbangkan dalam bab-bab
selanjutnya. Di sini, kita hanya berfokus pada pentingnya pencocokan setiap item
tes, sedekat mungkin, dengan hasil belajar tertentu memang ditujukan untuk
mengukur. Contoh-contoh, dari berbagai daerah konten, menggambarkan
pertandingan cukup baik antara hasil yang diharapkan dan item tes. Dalam setiap
contoh, perhatikan bagaimana hasil belajar yang spesifik menggambarkan perilaku
murid adalah untuk menunjukkan dan bagaimana soal tes menyajikan tugas yang
memanggil balik bahwa perilaku tertentu.
contoh
Mendefinisikan istilah umum.. (Matematika Dasar) Arah: Dalam satu atau dua
kalimat, mendefinisikan masing-masing dari kata-kata berikut.
Bunga
Premi
Dividen
Jaminan
Keuntungan
Spesifik Belajar Hasil: Mengidentifikasi prosedur untuk mengkonversi dari satu
ukuran yang lain. (Matematika Dasar)
1. 1. Luas karpet diberikan dalam meter persegi. Bagaimana seharusnya Anda
menentukan
jumlah kaki persegi?
Manakah dari pecahan berikut ini lebih kecil dari satu setengah?
Manakah dari fraksi berikut memiliki nilai yang sama dengan seperlima?
dimensi perilaku untuk diamati. Dalam contoh berikut, perhatikan bagaimana hasil
pembelajaran yang spesifik hanya membutuhkan sedikit modifikasi untuk menjadi
item dalam skala wisatawan:
Pidato
Spesifik Belajar Hasil: Mempertahankan kontak mata yang baik dengan penonton.
Penilaian Skala Item:
Seberapa efektif adalah pembicara dalam mempertahankan kontak mata dengan
penonton?
12345
Tidak efektif bawah rata-rata rata-rata atas rata-rata Sangat Efektif
Menulis tema
Spesifik Belajar Hasil: Mengatur ide-ide dalam cara yang koheren. Rating Scale Item:
Organisasi ide
12345
Poor Miskin Fair Adil Jelas, koheren
organization organisasi organization organisasi organization organisasi
Kerja Kelompok
Spesifik Learning Outcome: Berkontribusi ide-ide bermanfaat untuk diskusi
kelompok. Penilaian Skala Item:
Seberapa sering murid menyumbangkan ide-ide bermanfaat untuk diskusi
kelompok?
12345
Tidak pernah Jarang Kadang-kadang Cukup Sering Sering
Skala penilaian yang lebih lengkap dan daftar periksa disajikan dalam bab-bab
selanjutnya. Ini adalah tujuan kita di sini hanya untuk menggambarkan bagaimana
prosedur nontesting dapat dikaitkan dengan hasil tertentu yang kami ingin
mengevaluasi. Hasil pembelajaran yang spesifik menentukan perilaku untuk diamati
dan skala rating menyediakan metode yang nyaman untuk merekam penilaian
kami. Penilaian semacam itu, tentu saja, masih subyektif, tapi kami telah membuat
mereka seobjektif mungkin dengan jelas mendefinisikan sampel perilaku murid
kami berharap untuk mengamati dan kemudian sengaja mengamati perilaku orangorang dalam murid.
guru sains mungkin tidak mempertimbangkan ejaan suatu hasil yang diinginkan
ilmu pengetahuan, tapi masih tertarik dalam menentukan seberapa baik murid bisa
mengeja istilah ilmiah yang lebih kompleks. Itu selalu yang sah untuk bertanya
berapa banyak belajar insidental berlangsung, atau sebagai Cronbach telah
menunjukkan, berapa banyak yang dikorbankan di daerah-daerah tidak menerima
pengajaran langsung.
Ketika mengevaluasi pada skala yang lebih luas, proses yang berkaitan dengan
prosedur evaluasi hasil belajar pada dasarnya sama. Namun, dalam kasus ini, tentu
saja, diperlukan untuk menghubungkan instrumen evaluasi secara langsung
mungkin untuk semua dari hasil yang akan diukur; bukan hanya orang-orang yang
telah diidentifikasi sebagai hasil yang diharapkan dari instruksi.
RINGKASAN 76
Tujuan instruksional akan berfungsi paling efektif dalam evaluasi kelas jika upaya
sadar dibuat untuk menghubungkan prosedur evaluasi terhadap hasil pembelajaran
yang spesifik dicakup oleh masing-masing tujuan. Upaya ini dapat difasilitasi oleh
(1) rencana umum evaluasi, (2) tabel spesifikasi, dan (3) pilihan teknik evaluasi
yang mengukur setiap hasil belajar paling dekat.
Sebuah rencana evaluasi umum terdiri dari daftar semua tujuan instruksional umum
dan hasil pembelajaran yang spesifik dengan indikasi jenis teknik evaluasi yang
akan digunakan untuk setiap hasil yang diinginkan. Untuk tujuan pengajaran,
metode yang akan digunakan dalam mencapai tujuan juga dapat dimasukkan.
Pengembangan rencana evaluasi umum menjamin bahwa ketentuan telah dibuat
untuk mengevaluasi semua tujuan instruksional dan peringatan guru untuk jenisjenis informasi evaluatif yang harus dikumpulkan secara berkala selama semester.
Sebuah tabel spesifikasi ini sangat berguna dalam perencanaan untuk evaluasi
kelas. Ini adalah bagan dua arah yang menghubungkan tujuan instruksional tentu
saja dengan isi subject-matter yang digunakan untuk mencapai tujuan. Ini panduan
guru dalam membangun tes dan instrumen evaluasi lain yang mengukur hasil yang
diharapkan dari instruksi secara seimbang.
Langkah yang paling penting dalam berhubungan prosedur evaluasi untuk tujuan
instruksional adalah dalam pemilihan, atau konstruksi, teknik evaluasi khusus untuk
digunakan. Dalam kasus kedua item tes dan instrumen evaluasi nontest, upaya
terpadu harus dilakukan untuk mendapatkan sampel perilaku murid yang mirip
dengan perilaku yang dijelaskan dalam hasil pembelajaran yang spesifik.
Pencocokan perilaku tes untuk hasil yang dimaksudkan dapat ditingkatkan dengan
lebih mendefinisikan kata kerja yang digunakan dalam hasil pembelajaran yang
spesifik dan dengan mengambil perawatan khusus ketika menilai korespondensi
antara respon tes diharapkan dan hasilnya perilaku menyatakan itu dirancang untuk
mengukur.
Dalam beberapa kasus, kita mungkin akan tertarik dalam menentukan sejauh mana
program atau kurikulum yang memodifikasi perilaku murid di daerah selain yang ke
arah mana pengajaran diarahkan. Hal ini memerlukan prosedur evaluasi yang
melampaui hasil yang diharapkan dari instruksi, tetapi prinsip dasar yang berkaitan
instrumen evaluasi sedekat mungkin dengan hasil yang akan diukur masih relevan.
BELAJAR LATIHAN
Apa keuntungan dan keterbatasan termasuk metode pengajaran dalam rencana
evaluasi umum (sebagai Mr Whiteside lakukan)?
Apa keuntungan dari termasuk semua tujuan instruksional umum dalam tabel
spesifikasi, bukan hanya mereka yang dapat diukur dengan tes kertas dan pensil?
Apakah ada kerugian?
Jelaskan faktor yang harus dipertimbangkan ketika menentukan berapa banyak item
tes untuk mengabdikan untuk setiap tujuan instruksional, dan untuk setiap bidang
konten, selama persiapan tabel spesifikasi.
Langkah-langkah apa yang dapat diambil untuk lebih memastikan bahwa item
dalam tes kelas akan menimbulkan tanggapan yang sesuai? Bisakah kita pernah
yakin bahwa kami memiliki pertandingan yang sempurna antara tes barang dan
hasil dimaksudkan?
Pilih sebuah bab dalam buku teks di daerah mengajar Anda dan lakukan hal berikut:
a. a. Daftar bidang utama dari konten yang dibahas dalam bab ini.
b. b. Daftar beberapa hasil pembelajaran umum (misalnya, Knows istilah).
c. c. Buatlah sebuah tabel spesifikasi untuk uji dua puluh item pada materi
dalam bab ini (termasuk metode evaluasi lainnya, jika sesuai).
Apa keuntungan relatif dari menggunakan tes custom-made diterbitkan bukan tes
standar untuk mengukur belajar murid? Apa kerugiannya?
Bagaimana mungkin sebuah tabel spesifikasi digunakan dalam memilih tes standar?
Di daerah mengajar Anda sendiri, mengutip contoh di mana Anda mungkin ingin
mengukur hasil belajar di luar yang ditentukan untuk kursus tertentu.
Apa jenis metode pengujian atau evaluasi akan menjadi yang terbaik untuk masingmasing hasil sebagai berikut? Why? Mengapa?
a. a. Menunjukkan kebiasaan belajar yang baik.
b. b. Menafsirkan pilihan puisi.
c. c. Menarik kesimpulan dari bahan tertulis.
BAB 4
VALIDITY KEABSAHAN
Dalam memilih atau membangun instrumen evaluasi pertanyaan yang paling
penting adalah: Sejauh mana hasil akan melayani penggunaan tertentu yang
mereka dimaksudkan? Ini adalah esensi dari validitas.
Banyak aspek perilaku murid dievaluasi di sekolah, dan hasilnya diharapkan untuk
melayani berbagai penggunaan. Misalnya, prestasi dapat dievaluasi untuk
mendiagnosis kesulitan belajar atau untuk menentukan kemajuan menuju tujuan
instruksional; bakat skolastik dapat diukur untuk memprediksi keberhasilan dalam
kegiatan pembelajaran masa depan atau untuk murid kelompok untuk tujuan
instruksional; dan penilaian pengembangan pribadi-sosial dapat diperoleh dalam
rangka untuk lebih memahami siswa atau untuk layar mereka untuk rujukan ke
seorang konselor bimbingan. Terlepas dari area perilaku sedang dievaluasi,
bagaimanapun, atau penggunaan yang akan dibuat dari hasil, semua dari berbagai
prosedur yang digunakan dalam program evaluasi harus memiliki karakteristik
umum tertentu. Yang paling penting dari karakteristik ini dapat diklasifikasikan di
bawah judul validitas, reliabilitas, dan kegunaan.
Validitas mengacu pada sejauh mana hasil dari prosedur evaluasi melayani
penggunaan tertentu yang mereka dimaksudkan. Jika hasilnya digunakan untuk
menggambarkan prestasi murid, kita harus seperti mereka untuk mewakili
pencapaian tertentu yang kami ingin menjelaskan, untuk mewakili semua aspek
pencapaian kita ingin menjelaskan, dan untuk mewakili apa-apa lagi. Keinginan kita
dalam hal ini serupa dengan pengacara pembela di ruang sidang yang
menginginkan kebenaran, seluruh kebenaran, dan apa-apa selain kebenaran. Jika
hasilnya digunakan untuk memprediksi keberhasilan murid dalam beberapa
aktivitas masa depan, kita harus seperti mereka untuk memberikan akurat
perkiraan kesuksesan masa depan mungkin. Pada dasarnya, kemudian, validitas
selalu peduli dengan penggunaan khusus t0 terbuat dari hasil evaluasi dan dengan
tingkat kesehatan interpretasi yang diusulkan kami.
Keandalan mengacu pada konsistensi hasil evaluasi. Jika kita memperoleh skor
sangat mirip ketika tes yang sama diberikan kepada kelompok yang sama pada dua
kesempatan yang berbeda, kita dapat menyimpulkan bahwa hasil kami memiliki
tingkat kehandalan yang tinggi dari satu kesempatan ke yang lain. Demikian pula,
jika guru yang berbeda secara independen menilai murid yang sama pada
instrumen yang sama dan memperoleh penilaian setara, kita dapat menyimpulkan
bahwa hasil memiliki tingkat kehandalan yang tinggi dari satu penilai yang lain.
Seperti dengan validitas, reliabilitas erat terkait dengan jenis interpretasi yang akan
dibuat. Untuk beberapa penggunaan, kita mungkin tertarik untuk menanyakan
bagaimana diandalkan hasil evaluasi kami selama periode waktu tertentu, dan
untuk orang lain, bagaimana mereka dapat diandalkan dibandingkan dengan
sampel dari perilaku yang sama. Dalam semua kasus di mana keandalan sedang
ditentukan, bagaimanapun, kita prihatin dengan konsistensi dari hasil, bukan
dengan sejauh mana mereka melayani penggunaan khusus dalam pertimbangan.
Meskipun keandalan adalah kualitas yang sangat diinginkan, perlu dicatat bahwa
kehandalan tidak memberikan jaminan bahwa hasil evaluasi akan menghasilkan
informasi yang diinginkan. Seperti saksi memberikan kesaksian di ruang sidang
trial "fakta bahwa ia konsisten menceritakan kisah yang sama tidak menjamin
JENIS VALIDITAS 81
Tiga tipe dasar validitas telah diidentifikasi dan sekarang umum digunakan dalam
pengukuran pendidikan dan psikologis. 1 Mereka adalah: konten validitas, -kriteria
yang terkait validitas, dan membangun validitas. Makna umum jenis validitas
ditunjukkan dalam Tabel 4.1. Setiap jenis akan dijelaskan lebih lengkap sebagai
hasil bab. Demi kejelasan, diskusi akan terbatas pada validitas yang berkaitan
dengan prosedur pengujian. Harus diakui, bagaimanapun, bahwa ketiga jenis
validitas juga berlaku untuk semua berbagai jenis alat evaluasi yang digunakan
dalam sekolah.
Konten Validitas
1 American Psychological Association, Standar Pendidikan dan Tes Psikologi
(Washington, DC: APA, 1974).
Isi kursus atau kurikulum dapat didefinisikan secara luas untuk mencakup baik isi
pelajaran-materi dan tujuan instruksional. Yang pertama adalah berkaitan dengan
topik, atau area subyek, yang akan dibahas, dan yang terakhir dengan perubahan
perilaku dicari dalam murid. Kedua aspek konten menjadi perhatian dalam
menentukan validitas isi. Kita harus seperti setiap tes prestasi kita membangun,
atau pilih, untuk memberikan hasil yang mewakili topik dan perilaku kita ingin
mengukur. Ini adalah esensi dari validitas isi. Lebih formal, validitas isi dapat
didefinisikan sebagai sejauh mana tes mengukur sampel yang representatif
TABEL 4.1
Meaning Makna
tiga jenis validitas
Procedure Prosedur
Bandingkan isi tes untuk alam semesta konten dan perilaku yang akan diukur
Bandingkan nilai tes dengan ukuran lain kinerja yang diperoleh di kemudian hari
(untuk prediksi) atau dengan ukuran lain kinerja yang diperoleh secara bersamaan
(untuk memperkirakan status sekarang)
Eksperimental menentukan faktor-faktor apa nilai pengaruh pada tes
jumlah waktu yang dihabiskan untuk masing-masing daerah selama instruksi,
filosofi sekolah, pendapat para ahli di daerah, dan kriteria yang sama.
Sebuah tabel spesifikasi, seperti yang disajikan dalam Bab 3, dibangun dari daftar
tertimbang topik subjek-materi dan diharapkan perubahan perilaku. Tabel ini, maka,
menentukan penekanan relatif tes harus memberikan kepada setiap topik pokok
bahasan dan setiap jenis perubahan perilaku.
Tes prestasi dibangun, atau dipilih, sesuai dengan tabel spesifikasi. Semakin dekat
tes sesuai dengan spesifikasi yang ditunjukkan dalam tabel, semakin besar
kemungkinan bahwa tanggapan siswa 'untuk menguji akan memiliki tingkat tinggi
validitas isi.
Sebuah tabel spesifikasi, dalam bentuk yang sangat sederhana, disajikan pada Tabel
4.2 untuk menggambarkan bagaimana meja tersebut digunakan untuk memeriksa
validitas isi. Persentase dalam tabel menunjukkan tingkat relatif penekanan setiap
mata pelajaran-materi dan setiap jenis perubahan perilaku harus diberikan dalam
ujian. Jadi, jika tes ini adalah untuk mengukur sampel yang representatif dari isi
subject-matter, 15 persen dari item tes harus peduli dengan tanaman, 15 persen
dengan hewan, 30 persen dengan cuaca, 15 persen
TABEL 4.2
tabel yang menunjukkan penekanan relatif untuk civen ke berbagai daerah subyek
dan kemungkinan perilaku untuk tes dalam ilmu sekolah dasar
Perubahan Perilaku (dalam Persentase)
Bidang
Keahlianmateri
Memahami Berlaku
Konsep
Konsep
Total
Total
Plants
Tanaman
10 10
55
15 15
Animals
Hewan
10 10
55
15 15
Weather
Cuaca
15 15
15 15
30 30
Earth Bumi
55
10 10
15 15
Sky Langit
10 10
15 15
25 25
Total Total
50 50
50 50
100
100
dengan bumi, dan 25 persen dengan langit. Jika tes ini adalah untuk mengukur
sampel yang representatif dari perubahan perilaku, 50 persen dari barang-barang
yang harus mengukur "pemahaman konsep," dan 50 persen harus mengukur
"penerapan konsep." Ini, tentu saja, menyiratkan bahwa penekanan khusus pada
"pemahaman" dan "aplikasi" untuk masing-masing mata pelajaran-materi yang
akan mengikuti ditunjukkan dengan persentase di tabel spesifikasi. Misalnya, 10
persen dari item tes yang bersangkutan dengan tanaman harus mengukur
"pemahaman konsep," dan 5 persen dari item tes harus mengukur "penerapan
konsep."
Perlu dicatat bahwa prosedur ini hanya memberikan cek kasar
pada validitas isi. Analisis tersebut mengungkapkan jelas relevansi dari item tes
untuk bidang subjek-materi dan perubahan perilaku yang akan diukur. Validitas isi
prihatin dengan sejauh mana item tes sebenarnya menimbulkan tanggapan diwakili
dalam tabel spesifikasi. Item tes mungkin muncul untuk mengukur "pemahaman"
tapi tidak berfungsi sebagaimana dimaksud karena cacat pada item, arah jelas,
kosakata yang tidak pantas, atau kondisi pengujian tidak terkontrol. Dengan
demikian, validitas isi tergantung pada sejumlah faktor selain relevansi nyata dari
item tes. Sebagian besar dari apa yang tertulis dalam buku ini mengenai konstruksi
dan seleksi tes prestasi diarahkan meningkatkan validitas isi dari hasil yang
diperoleh.
Meskipun pembahasan kita tentang validitas isi telah terbatas pada pengujian
prestasi, validitas isi juga dari beberapa kekhawatiran masuk pengukuran bakat,
minat, sikap, dan penyesuaian pribadi-sosial. Sebagai contoh, jika kita memilih
inventarisasi bunga kita harus seperti itu untuk menutupi aspek-aspek kepentingan
dengan yang kita prihatin. Demikian pula, skala sikap harus mencakup topik-topik
sikap yang sesuai dengan tujuan kita ingin mengukur. Prosedur di sini pada
dasarnya sama seperti yang di tes prestasi. Ini adalah masalah menganalisis bahan
uji dan hasil yang akan diukur dan menilai tingkat korespondensi antara mereka.
pemeriksaan departemen? Jika hal ini terjadi, Mr Young cenderung setuju bahwa
skolastik skor tes bakat cenderung akurat dalam memprediksi prestasi di kelas
aritmatika ini. Singkatnya, ia mengakui bahwa hasil tes memiliki validitas-kriteria
terkait.
Dalam ilustrasi kami, Pak Young hanya diperiksa bakat nilai tes skolastik dan skor
tes prestasi untuk menentukan kesepakatan di antara mereka. Meskipun ini
mungkin menjadi langkah awal yang diinginkan, itu jarang cukup untuk
menunjukkan validitas kriteria terkait. Prosedur yang biasa adalah berkorelasi
statistik dua set nilai dan melaporkan derajat hubungan antara mereka dengan
menggunakan koefisien korelasi. -ini memungkinkan validitas yang akan disajikan
dalam hal yang tepat dan universal dipahami. Mereka, tentu saja, "universal
dipahami" hanya oleh mereka yang memahami dan dapat menginterpretasikan
koefisien korelasi. Hal ini akan menimbulkan masalah yang besar, namun, karena
makna koefisien korelasi dapat dengan mudah ditangkap oleh orang-orang yang
keterampilan komputasi berlangsung tidak lebih dari itu aritmatika sederhana.
Peringkat-Perbedaan Korelasi. Untuk memperjelas perhitungan dan interpretasi
koefisien korelasi, mari kita mempertimbangkan nilai yang tepat murid Mr Young
diterima pada kedua tes bakat skolastik dan pemeriksaan departemen dalam
aritmatika. Informasi ini disediakan dalam dua kolom pertama dari Tabel 4.3.
Dengan memeriksa dua kolom skor, sebagai Mr Muda lakukan, adalah mungkin
untuk dicatat bahwa nilai yang tinggi pada Kolom 1 cenderung untuk pergi
pergeseran dalam urutan peringkat dari satu tes ke tes lain. Masalah kita
sekarang isa "Bagaimana kita bisa mengekspresikan derajat hubungan antara dua
set peringkat dalam hal yang berarti? Di sinilah koefisien korelasi menjadi berguna.
Peringkat-perbedaan korelasi hanyalah sebuah metode untuk mengungkapkan
derajat hubungan antara dua set peringkat. Langkah-langkah dalam menentukan
koefisien korelasi rank-perbedaan disajikan di buku komputasi berikut. 2 Pak Data
Young, pada Tabel 4.3, yang digunakan untuk menggambarkan
Steps Tangga
komputasi-guide: rank-perbedaan korelasi
Kolom 1 dan 2 Kolom 3 dan 4
Kolom 5
Kolom 6
Bawah Kolom 6 6 X 532
P = lP (rho) = 1
20 (20 2 - 1) 3192
=17980 1-0,40 .60
Hasil pada Tabel 4.3
dengan nilai yang tinggi pada Kolom 2. Perbandingan ini sulit untuk membuat,
namun, karena ukuran dari nilai tes dalam dua kolom yang berbeda.
Kesepakatan dua set nilai dapat lebih mudah dilakukan jika nilai tes dikonversi ke
jajaran. Hal ini telah dilakukan dalam Kolom 3 dan 4 dari Tabel 4.3. Perhatikan
bahwa murid yang pertama pada tes bakat peringkat ketiga pada tes aritmatika;
murid yang kedua pada tes bakat peringkat keempat pada tes aritmatika; murid
yang ketiga pada tes bakat peringkat keenam pada tes aritmatika; and so on. dan
seterusnya. Membandingkan urutan peringkat dari murid di dua tes, seperti yang
ditunjukkan dalam Kolom 3 dan 4 dari Tabel 4.3, memberi kita gambaran yang
cukup baik dari hubungan antara dua set nilai. Dari pemeriksaan ini kita tahu bahwa
murid yang memiliki kedudukan tinggi pada tes bakat juga memiliki kedudukan
yang tinggi pada tes aritmatika, dan murid yang memiliki kedudukan rendah pada
tes bakat juga memiliki kedudukan yang rendah pada tes aritmatika. Pemeriksaan
kami Kolom 3 dan 4 juga menunjukkan kepada kita, bagaimanapun, bahwa
hubungan antara jajaran murid pada dua tes tidak sempurna. Ada beberapa
prosedur. Ini akan dicatat bahwa surat rho Yunani ( P ) digunakan untuk
mengidentifikasi koefisien korelasi rank-order. Dari perhitungan kami untuk data Mr
Young kita menemukan bahwa P = .60. Koefisien korelasi ini adalah ringkasan
statistik dari tingkat hubungan antara dua set nilai dalam data Mr Young. Dalam
contoh khusus ini, ini menunjukkan sejauh mana jatuhnya nilai tes bakat (prediktor)
merupakan prediksi musim semi aritmatika nilai ujian (kriteria). Singkatnya,
mengacu pada validitas-kriteria terkait bakat skor tes.
Seberapa baik adalah validitas koefisien Mr Young .60? Haruskah Pak Young akan
senang dengan temuan ini atau haruskah dia kecewa? Apakah tes ini bakat tertentu
memberikan prediksi yang baik kinerja masa depan dalam aritmatika?
Sayangnya, jawaban sederhana dan mudah tidak dapat diberikan atas pertanyaanpertanyaan tersebut. Interpretasi koefisien korelasi tergantung
pada informasi dari berbagai sumber. Pertama, kita tahu bahwa koefisien
korelasi berikut menunjukkan derajat ekstrim hubungan bahwa adalah mungkin
untuk mendapatkan antara variabel:
1.00 = hubungan positif sempurna .00 = ada hubungan "1,00 = sempurna
hubungan negatif
Karena koefisien validitas Mr Young adalah .60, kita tahu bahwa hubungan yang
positif tapi agak kurang sempurna. Jelas, semakin dekat koefisien validitas
pendekatan 1.00 bahagia kita dengan itu karena koefisien validitas lebih besar
menunjukkan akurasi yang lebih besar dalam memprediksi dari satu variabel yang
lain. 3
Cara lain untuk mengevaluasi validitas koefisien Mr Young dari .60 adalah untuk
membandingkannya dengan koefisien validitas yang diperoleh dengan metode lain
memprediksi kinerja dalam aritmatika. Jika koefisien validitas ini lebih besar dari
yang diperoleh dengan prosedur prediksi lain, Pak Young akan terus menggunakan
tes bakat skolastik. Sebagai cara terbaik yang tersedia baginya untuk memprediksi
kinerja aritmatika muridnya. Dengan demikian, koefisien validitas yang besar atau
kecil hanya dalam hubungan satu sama lain. Dimana validitas-kriteria terkait
merupakan pertimbangan penting, kita akan selalu mempertimbangkan lebih
menguntungkan tes dengan koefisien validitas terbesar. Dalam hal ini, bahkan tes
bakat dengan validitas agak rendah mungkin berguna, namun, jika mereka adalah
prediktor terbaik yang tersedia, dan prediksi mereka berikan adalah lebih baik
daripada kesempatan. 4
Mungkin cara termudah menangkap makna praktis dari koefisien korelasi adalah
untuk dicatat bagaimana akurasi prediksi meningkat sebagai koefisien korelasi
menjadi lebih besar. Hal ini ditunjukkan dalam berbagai grafik yang disajikan dalam
Tabel 4.4. Baris-baris di setiap grafik mewakili perempat kelompok pada beberapa
prediktor (seperti tes bakat skolastik) dan kolom menunjukkan persentase orang
yang jatuh di setiap keempat pada ukuran kriteria (seperti tes prestasi). Pertama
perhatikan bahwa untuk koefisien korelasi .00, berada di atas pada kuartal prediktor
tersebut tidak memberikan dasar untuk memprediksi di mana seseorang mungkin
jatuh pada ukuran kriteria. Peluangnya untuk jatuh setiap kuartal sama-sama baik.
Sekarang beralih ke grafik untuk koefisien korelasi .60. Perhatikan, di sini, bahwa
jika seseorang jatuh pada kuartal atas pada prediktor, ia memiliki 54 peluang emas
dari 100 jatuh di kuartal teratas pada ukuran kriteria, 28 peluang emas dari 100
jatuh pada kuartal kedua, 14 peluang dari 100 jatuh pada kuartal ketiga, dan hanya
4 peluang emas dari 100 jatuh pada kuartal bawah. Sisa dari grafik dibaca dengan
cara yang sama.
Dengan membandingkan grafik untuk koefisien korelasi yang berbeda-ukuran,
adalah mungkin untuk mendapatkan beberapa merasakan arti dari koefisien
korelasi dalam hal efisiensi prediksi. Sebagai koefisien korelasi menjadi lebih besar,
kemungkinan seseorang berada di triwulan yang sama pada ukuran kriteria seperti
dia berada di prediktor yang meningkat. Hal ini dapat dilihat dengan melihat entri di
sel diagonal. Dengan koefisien korelasi 1,00, masing-masing sel diagonal akan,
tentu saja, mengandung 100 persen dari Casesa "menunjukkan prediksi yang
sempurna dari satu ukuran yang lain.
Memperkirakan Hadir Kinerja. Sampai titik ini kita telah menekankan peran
validitas-kriteria terkait dalam memprediksi kinerja masa depan. Meskipun ini
mungkin penggunaan utama, ada kalanya kita tertarik dalam hubungan kinerja tes
untuk beberapa ukuran lainnya saat ini kinerja. Dalam hal ini, kita akan
mendapatkan kedua langkah kira-kira pada waktu yang sama dan mengkorelasikan
hasil. Hal ini umumnya dilakukan ketika tes sedang dipertimbangkan sebagai
pengganti metode memakan waktu lebih untuk memperoleh informasi. Sebagai
contoh, Mr Brown, guru biologi, bertanya-tanya apakah tes obyektif kemampuan
belajar dapat digunakan di tempat pengamatan dan penilaian prosedur rumit ia
gunakan saat ini. Dia merasa bahwa jika tes dapat diganti untuk prosedur yang
lebih kompleks, ia akan memiliki lebih banyak waktu untuk mengabdikan untuk
murid individu selama
TT
diawasi masa studi. Analisis perilaku murid tertentu di mana ia dinilai
kemampuan belajar murid 'menunjukkan bahwa banyak prosedur dapat dinyatakan
dalam bentuk pertanyaan tes objektif. Akibatnya, ia mengembangkan tes obyektif
kemampuan belajar bahwa ia diberikan kepada murid-muridnya. Untuk menentukan
berapa memadai tes diukur kemampuan belajar ia berkorelasi hasil tes dengan
penilaian tentang kemampuan belajar siswa. Sebuah koefisien korelasi yang
dihasilkan dari 75 mengindikasikan kesepakatan yang cukup besar antara hasil tes
dan mengukur kriteria. Koefisien korelasi ini merupakan validitas-kriteria terkait uji
Mr Brown kemampuan belajar.
Kita mungkin juga berkorelasi hasil tes dengan beberapa ukuran lainnya saat ini
kinerja untuk menentukan apakah sebuah studi prediktif adalah layak dilakukan.
Sebagai contoh, jika satu set bakat skor tes skolastik berkorelasi dengan tingkat
yang cukup tinggi (misalnya, .60) dengan satu set nilai tes prestasi yang diperoleh
pada saat yang sama, itu akan menunjukkan bahwa tes bakat skolastik memiliki
cukup potensial sebagai prediktor untuk membuat sebuah studi prediktif berharga.
Di sisi lain, korelasi yang rendah akan mencegah kita dari melakukan studi prediktif,
karena kita tahu bahwa korelasi akan menjadi masih lebih rendah ketika periode
waktu antara tindakan diperpanjang. Hal lain dianggap sama, semakin besar
rentang waktu antara dua ukuran yang lebih kecil koefisien korelasi.
Harapan Table. Seberapa baik tes memprediksi kinerja masa depan atau
memperkirakan kinerja saat ini pada beberapa ukuran kriteria juga dapat
ditunjukkan dengan langsung memplot data dalam grafik dua kali lipat seperti yang
ditunjukkan pada Gambar 4.1. Di sini, Data Mr Young (dari Tabel 4.3) telah
ditabulasikan dengan menempatkan penghitungan menunjukkan berdiri masingmasing individu pada kedua skor bakat musim gugur dan musim semi skor
aritmatika. Sebagai contoh, John mencetak 119 pada tes bakat gugur dan 77 pada
tes musim semi aritmatika, sehingga penghitungan, mewakili penampilannya,
ditempatkan di sel kanan atas. Kinerja semua murid lain pada dua tes yang dihitung
dengan cara yang sama. Dengan demikian, setiap tanda tally pada Gambar 4.1
merupakan seberapa baik masing-masing Mr Young dua puluh murid dilakukan pada
musim gugur dan musim semi tes. Total jumlah murid di masing-masing sel, dan di
setiap kolom dan baris, juga telah ditunjukkan.
Grid harapan yang ditunjukkan pada Gambar 4.1 dapat digunakan secara langsung
sebagai meja harapan, hanya dengan menggunakan frekuensi dalam setiap sel.
Penafsiran informasi tersebut sederhana dan langsung. Misalnya, orang-orang
murid yang mencetak di atas rata-rata pada tes bakat jatuh, tidak ada skor di
bawah 65 pada tes musim semi aritmatika, 2 dari 5 mencetak antara 65 dan 74,
dan 3 dari 5 gol antara 75 dan 84. Dari mereka yang mencetak bawah rata-rata
pada tes bakat jatuh, tidak ada gol dalam kategori top pada tes musim semi
aritmatika dan 4 dari 5 gol di bawah 65. interpretasi ini terbatas pada kelompok
diuji tetapi dari hasil seperti yang mungkin membuat prediksi tentang masa depan
murid. Kita dapat mengatakan, misalnya, bahwa siswa yang mendapat skor di atas
rata-rata pada tes musim gugur bakat mungkin akan mencetak gol atas rata-rata
pada tes musim semi aritmatika. Prediksi lain dapat dibuat dengan cara yang sama
dengan mencatat frekuensi dalam setiap sel grid pada Gambar 4.1.
Lebih umum, angka-angka dalam tabel harapan yang dinyatakan dalam
persentase. Hal ini mudah diperoleh dari grid dengan mengubah masing-masing
frekuensi sel persentase dari jumlah total penghitungan di barisnya. Ini telah
dilakukan untuk data pada Gambar 4.1 dan hasilnya disajikan pada Tabel 4.5. Baris
pertama dari tabel menunjukkan bahwa dari 5 murid yang mencetak di atas ratarata pada tes bakat jatuh, 40 persen (2 murid) mencetak antara 65 and'74 pada tes
musim semi aritmatika, dan 60 persen (3 murid) mencetak antara 75 dan 84. Baris
tersisa dibaca dengan cara yang sama. Penggunaan persentase membuat angkaangka dalam setiap baris dan kolom yang sebanding. Prediksi kami kemudian dapat
dibuat dalam hal standar (yaitu, kemungkinan dari 100) untuk semua tingkat skor.
Penafsiran kita sangat tepat untuk menjadi sedikit lebih jelas
jika kita mengatakan kemungkinan Henry berada di kelompok atas pada ukuran
kriteria adalah 60 dari 100 dan Ralph hanya 10 dari 100, dibandingkan jika kita
mengatakan kemungkinan Henry adalah 3 dari 5 dan Ralph adalah 1 dari 10.
Tabel Harapan mengambil banyak bentuk yang berbeda dan dapat digunakan untuk
menunjukkan hubungan antara berbagai jenis ukuran. Jumlah kategori yang
digunakan dengan prediktor, atau kriteria, mungkin sedikitnya dua atau sebanyak
tampaknya diinginkan. Juga, prediktor mungkin setiap set langkah-langkah yang
kami ingin membangun validitas kriteria-kriteria yang terkait dan mungkin nilai saja,
peringkat, nilai tes, atau apa pun ukuran keberhasilan relevan lainnya. 0
Ketika menafsirkan tabel harapan didasarkan pada sejumlah kecil kasus, seperti
kelas Mr Young dari dua puluh murid, prediksi kami harus dianggap sebagai sangat
tentatif "Setiap persentase didasarkan pada begitu sedikit murid yang bisa kita
harapkan fluktuasi besar dalam angka-angka dari satu kelompok murid yang lain.
Hal ini sering mungkin untuk meningkatkan jumlah murid diwakili dalam tabel
dengan menggabungkan hasil tes dari beberapa kelas. Dimana hal ini dilakukan,
persentase kami, tentu saja, jauh lebih stabil, dan prediksi kami dapat dibuat
dengan keyakinan yang lebih besar. Dalam hal apapun, tabel harapan menyediakan
cara sederhana dan langsung menunjukkan validitas hasil tes.
The "Kriteria" Masalah. Dalam penentuan validitas-kriteria terkait, masalah utama
adalah bahwa untuk memperoleh memuaskan kriteria keberhasilan. Perlu diingat
bahwa Mr Young menggunakan pemeriksaan departemen yang komprehensif
sebagai kriteria keberhasilan dalam kelas tujuh kelas aritmatika nya. Mr Brown
menggunakan penilaian sendiri kemampuan belajar siswa. Dalam setiap contoh
kriteria keberhasilan itu hanya sebagian cocok sebagai dasar untuk uji validasi. Pak
Young mengakui bahwa pemeriksaan departemen tidak mengukur semua
pembelajaran penting hasil bahwa ia bertujuan untuk mengajar aritmatika. Ada
hampir tidak cukup penekanan pada penalaran aritmatika; interpretasi grafik dan
diagram sayangnya diabaikan; dan, tentu saja, tes tidak mengevaluasi sikap murid
terhadap aritmatika (yang Pak Young dianggap sangat penting). Demikian juga, Mr
Brown sangat menyadari kekurangan dari nya kemampuan belajar murid. Dia
merasa bahwa beberapa murid "diletakkan pada sebuah pertunjukan" ketika
mereka tahu mereka sedang diamati. Dalam kasus lain ia merasa bahwa beberapa
murid yang mungkin berlebihan pada kemampuan belajar karena prestasi yang
tinggi dalam pekerjaan kelas. Meskipun kekurangan diakui, baik Pak Young dan Mr
Brown merasa perlu untuk menggunakan langkah-langkah kriteria ini karena
mereka adalah tindakan kriteria terbaik yang tersedia.
Plights dari Pak Young dan Mr Brown dalam menemukan kriteria yang cocok
keberhasilan untuk tujuan validasi tes yang tidak biasa. Pemilihan kriteria yang
memuaskan adalah salah satu masalah yang paling sulit dalam memvalidasi tes.
Untuk tujuan pendidikan yang paling, tidak ada kriteria yang cukup sukses ada.
Mereka yang digunakan cenderung kurang dalam kelengkapan dan dalam
kebanyakan kasus memberikan hasil yang kurang stabil dibandingkan dengan tes
divalidasi.
Kurangnya kriteria yang cocok untuk memvalidasi tes prestasi memiliki implikasi
penting bagi guru kelas. Karena jenis statistik validitas biasanya tidak tersedia, guru
akan harus bergantung pada prosedur analisis logis untuk menjamin validitas
pengujian. Ini berarti hati-hati mengidentifikasi tujuan pengajaran, menyatakan
tujuan tersebut dalam hal perubahan tertentu dalam perilaku murid, dan
masa kanak-kanak dan remaja), dan anak laki-laki mendapatkan skor yang lebih
tinggi dibandingkan anak perempuan pada tes tertentu (misalnya, pemahaman
mekanik). Selain itu, masuk akal untuk mengharapkan bahwa skor tes prestasi akan
membedakan antara kelompok dengan jumlah yang berbeda dari pelatihan dan
bahwa nilai pada persediaan penyesuaian akan membedakan antara kelompok
disesuaikan dan maladjusted individu. Dengan demikian, prediksi perbedaan untuk
tes tertentu dapat diperiksa terhadap kelompok-kelompok yang diketahui berbeda
dan hasilnya digunakan sebagai dukungan parsial untuk validasi konstruk.
Perbandingan skor sebelum dan setelah beberapa pengobatan tertentu. Beberapa
nilai ujian dapat diharapkan akan cukup tahan terhadap pelatihan khusus (misalnya,
kecerdasan), sedangkan yang lain dapat diharapkan untuk meningkatkan (misalnya,
prestasi). Demikian pula, beberapa skor tes dapat diharapkan untuk mengubah
jenis tertentu sebagai pengobatan eksperimental diperkenalkan. Sebagai contoh,
kita akan mengharapkan nilai pada tes kecemasan untuk berubah ketika individu
mengalami pengalaman kecemasan-memproduksi. Dengan demikian, dari teori
yang mendasari sifat yang diukur, kita dapat membuat prediksi bahwa skor tes
tertentu akan berubah (atau tetap stabil) dalam berbagai kondisi. Jika prediksi kami
diverifikasi, hasilnya memberikan dukungan lebih lanjut untuk validasi konstruk.
Korelasi dengan tes lainnya. Nilai dari setiap tes tertentu dapat diharapkan
berkorelasi secara substansial dengan nilai tes lain yang mungkin mengukur hal
yang sama. Dengan cara yang sama, nilai tes dapat diharapkan memiliki korelasi
rendah dengan tes yang dirancang untuk mengukur kemampuan yang berbeda
atau sifat. Sebagai contoh, kita akan mengharapkan satu set skolastik skor tes
bakat berkorelasi lebih tinggi dengan orang-orang dari tes bakat skolastik lain,
tetapi jauh lebih rendah dengan skor tes bakat musik. Dengan demikian, untuk
setiap tes yang diberikan, kami akan memprediksi korelasi tinggi dengan tes seperti
dan korelasi rendah dengan tes seperti. Selain itu, kami juga bisa memprediksi
bahwa skor tes akan berkorelasi dengan berbagai kriteria praktis. Skor bakat
skolastik, misalnya, harus berkorelasi dengan nilai memuaskan sekolah, nilai tes
prestasi, dan langkah-langkah lain prestasi. Jenis kedua bukti, tentu saja, validitaskriteria terkait. Kepentingan kita di sini, bagaimanapun, tidak dalam masalah
mendesak dari prediksi, melainkan dalam menggunakan korelasi ini untuk
mendukung klaim bahwa tes adalah ukuran dari bakat skolastik. Seperti yang
ditunjukkan sebelumnya, membangun validasi tergantung pada berbagai macam
bukti, termasuk yang disediakan oleh jenis-jenis validitas.
Dalam memeriksa validitas konstruk, kepentingan kita tidak terbatas pada
konstruksi psikologis tes dirancang untuk mengukur. Setiap faktor yang mungkin
mempengaruhi nilai tes menjadi perhatian yang sah. Sebagai contoh, meskipun
penulis uji mengklaim langkah-langkah tes penalaran aritmatika nya, kita mungkin
berhak bertanya sejauh mana skor tes dipengaruhi oleh keterampilan komputasi,
kemampuan membaca, dan faktor-faktor yang sama. Secara dipahami, validitas
konstruk merupakan upaya untuk menjelaskan perbedaan dalam skor tes. Alih-alih
bertanya, "Apakah ukuran tes ini apa yang penulis mengklaim mengukur?" kita
bertanya, "Tepatnya apa ukuran tes ini? Bagaimana kita paling bermakna
menafsirkan skor secara psikologis?" Tujuan validasi konstruk adalah untuk
mengidentifikasi sifat dan kekuatan dari semua faktor yang mempengaruhi kinerja
pada tes.
Validitas konstruk sangat penting di semua jenis testing "prestasi, bakat, dan
pengembangan pribadi-sosial. Apabila memilih tes standar, kita harus mencatat apa
interpretasi disarankan untuk tes dan kemudian meninjau uji manual untuk
menentukan bukti total yang tersedia yang mendukung interpretasi ini.
Kepercayaan diri yang kita dapat membuat interpretasi yang diajukan secara
langsung tergantung pada jenis bukti yang diajukan. Juga, jika kita menduga bahwa
skor tes dipengaruhi oleh faktor-faktor lain selain yang dijelaskan dalam manual
(seperti kecepatan dan kemampuan membaca), kita harus memeriksa firasat ini
dengan eksperimen yang cocok kita sendiri.
VALIDITAS KRITERIA-DISEBUTKAN TES PENGUASAAN 96
Seperti disebutkan dalam Bab 1, tes mengacu-norma dirancang untuk menekankan
perbedaan antara individu. Kinerja seseorang pada tes norma-referenced memiliki
sedikit makna dengan sendirinya. Untuk menjadi bermakna, kinerja uji harus
dibandingkan dengan kinerja orang lain yang telah mengambil tes. Kami menilai
apakah nilai norma-referenced tinggi atau rendah dengan 'mencatat posisi relatif
dalam satu set nilai. Dasar pendekatan pengukuran ini adalah penyebaran luas nilai
tes sehingga diskriminasi diandalkan dapat dibuat antara individu-individu. Kita bisa
berbicara tentang perbedaan antara Tom dan Bill dan Mary Jane dan dengan
keyakinan yang lebih besar jika perbedaan skor besar. Variabilitas ini antara skor,
yang penting untuk pengujian norma-referenced, juga diperlukan untuk menghitung
koefisien validitas. Bahkan, sebagian besar langkah-langkah statistik tradisional
untuk memperkirakan validitas dan reliabilitas menggunakan rumus berdasarkan
variabilitas antara skor. Dengan demikian, meskipun semua berbagai perkiraan
validitas dibahas sebelumnya sesuai untuk pengujian norma-referenced, mereka
tidak benar-benar sesuai untuk menilai keabsahan tes penguasaan kriteriadireferensikan. 7 1
Whe reas variabilitas antara nilai sangat penting untuk tes mengacu-norma, itu
tidak relevan untuk tes penguasaan kriteria-direferensikan. Tes ini dirancang untuk
menggambarkan jenis tugas seorang individu dapat melakukan. Jika semua siswa
dapat melakukan himpunan tugas (misalnya, mengidentifikasi alat ukur termasuk
dalam unit cuaca) pada akhir instruksi, dan dengan demikian semua mendapatkan
nilai sempurna (variabilitas nol), itu lebih baik. Dari sudut pandang penguasaan
pembelajaran, pengujian dan instruksi akan muncul untuk menjadi efektif. Karena
variabilitas antara skor bukanlah kondisi yang diperlukan untuk tes penguasaan
kriteria-direferensikan baik, langkah-langkah statistik konvensional untuk
menentukan validitas yang tidak pantas. 8
Jenis validitas yang sangat penting terbesar untuk tes penguasaan kriteriadireferensikan adalah validitas isi. Prosedur untuk memperoleh validitas isi
dijelaskan sebelumnya dalam bab ini adalah sebagai berlaku di sini seperti mereka
dengan tes norma-referenced. Fakta bahwa tes penguasaan kriteria-direferensikan
biasanya terbatas pada domain yang lebih delimited tugas belajar (misalnya,
satuan atau bab), bahkan menyederhanakan proses mendefinisikan dan memilih
sampel yang representatif dari tugas. Dalam beberapa kasus, domain tugas sangat
terbatas (misalnya, penambahan bilangan satu digit) bahwa sampel yang
representatif dapat diperoleh tanpa menggunakan tabel spesifikasi.
Meskipun validitas isi adalah perhatian utama dengan tes penguasaan kriteriadireferensikan, kami juga mungkin tertarik menggunakan hasil tes untuk membuat
prediksi tentang murid. Kita mungkin, misalnya, menggunakan pretest kriteriadireferensikan untuk memprediksi siswa cenderung menguasai materi dalam unit
instruksi, atau menggunakan tes penguasaan end-of-satuan untuk menentukan
murid harus melanjutkan ke unit berikutnya instruksi . Keputusan instruksional
seperti ini membutuhkan beberapa bukti (validitas-kriteria terkait) bahwa keputusan
kami didasarkan nyenyak. Bukti ini dapat diperoleh dengan cara meja harapan,
seperti yang ditunjukkan pada Tabel 4.6. Ini akan dicatat dalam tabel ini bahwa
sebagian besar murid dengan skor pretest dari 20 atau lebih rendah gagal untuk
mencapai penguasaan pada akhir unit. Dalam kasus seperti itu, skor tes dari 20
akan memberikan skor cutoff yang baik untuk menentukan siswa harus melanjutkan
dengan unit dan yang seharusnya menerima bantuan perbaikan sebelum
melanjutkan. Kami akan, tentu saja, lebih memilih sejumlah besar murid dari tiga
puluh ketika memilih nilai cutoff tersebut, tapi ini merupakan situasi kelas yang
realistis. Seperti disebutkan sebelumnya, itu sering mungkin untuk meningkatkan
jumlah murid yang digunakan dalam tabel harapan dengan menggabungkan hasil
tes dari beberapa kelas.
Tidak ada dalam sifat pengujian penguasaan kriteria-direferensikan untuk
menyingkirkan validitas konstruk. Begitu banyak bukti yang mendukung untuk
validitas konstruk tergantung pada korelasi dan ukuran statistik lain,
bagaimanapun, bahwa validitas konstruk tes kriteria-direferensikan akan,
kebutuhan, didasarkan pada bukti-bukti yang agak sedikit (yaitu, hanya bukti
bahwa tidak tergantung pada variabilitas antara skor).
FAKTOR YANG MEMPENGARUHI VALIDITAS 98
Banyak faktor yang cenderung membuat hasil tes tidak valid untuk digunakan.
Beberapa agak jelas dan mudah dihindari. Tidak ada guru akan berpikir untuk
mengukur pengetahuan tentang ilmu-ilmu sosial dengan tes bahasa Inggris. Guru
juga akan mempertimbangkan mengukur keterampilan pemecahan masalah di
kelas tiga aritmatika dengan tes yang dirancang untuk anak kelas enam. Dalam
kedua kasus hasil tes akan jelas tidak valid. Faktor-faktor yang mempengaruhi
validitas yang bersifat umum ini sama tapi jauh lebih halus dalam karakter. Sebagai
contoh, seorang guru dapat membebani tes ilmu sosial dengan item mengenai
fakta-fakta sejarah dan dengan demikian itu kurang valid sebagai ukuran
pencapaian dalam studi sosial. Atau guru kelas tiga dapat memilih masalah
aritmatika yang sesuai untuk murid-muridnya, tetapi menulis arah yang hanya
pembaca lebih mampu memahami dengan jelas. Tes aritmatika kemudian menjadi
tes membaca yang membatalkan hasil untuk digunakan. Ini adalah sifat dari
beberapa faktor yang lebih halus mempengaruhi validitas. Ini adalah faktor yang
guru harus waspada, apakah membangun tes kelas atau memilih tes standar.
Faktor-faktor dalam Test Sendiri 98
Pemeriksaan yang seksama item tes akan menunjukkan apakah tes tampaknya
untuk mengukur kandungan subyek dan fungsi mental bahwa guru tertarik dalam
pengujian. Namun, salah satu dari faktor-faktor berikut dapat mencegah item tes
dari berfungsi sebagaimana dimaksud dan dengan demikian menurunkan validitas
hasil pengujian:
1. arah yang tidak jelas. Arah yang tidak jelas menunjukkan kepada murid
bagaimana menanggapi item, apakah itu diperbolehkan untuk menebak, dan cara
merekam jawaban akan cenderung mengurangi validitas.
Membaca kosa kata dan kalimat struktur terlalu sulit. Kosakata dan struktur kalimat
yang terlalu rumit untuk siswa mengambil tes akan menghasilkan tes mengukur
pemahaman bacaan dan aspek kecerdasan daripada aspek perilaku murid bahwa
tes ini dimaksudkan untuk mengukur.
Tingkat Inappropriate kesulitan dari item tes. Dalam tes norma-direferensikan, item
yang terlalu mudah atau terlalu sulit tidak akan memberikan diskriminasi handal di
antara murid dan validitas karena itu akan lebih rendah. Dalam tes kriteriadireferensikan, kegagalan untuk mencocokkan kesulitan item tes dengan kesulitan
yang ditentukan dalam tujuan instruksional akan menurunkan validitas.
Item tes buruk dibangun. item uji yang sengaja memberikan petunjuk jawabannya
akan cenderung mengukur kewaspadaan para murid dalam mendeteksi petunjuk
serta aspek perilaku murid bahwa tes ini dimaksudkan untuk mengukur.
Ambiguitas. pernyataan ambigu dalam item tes berkontribusi terhadap salah tafsir
dan kebingungan. Ambiguitas terkadang membingungkan siswa yang lebih baik
lebih dari siswa miskin, menyebabkan item berfungsi bahkan kurang efektif untuk
mereka.
Item tes yang tidak pantas untuk hasil yang diukur. Mencoba untuk mengukur
pemahaman, keterampilan berpikir, dan jenis kompleks lainnya prestasi dengan
bentuk tes yang sesuai hanya untuk mengukur pengetahuan faktual akan
membatalkan hasil.
Uji terlalu pendek. Sebuah tes hanya contoh dari banyak pertanyaan yang mungkin
ditanyakan. Jika tes ini terlalu singkat untuk memberikan sampel yang representatif
dari perilaku kita tertarik, validitas akan menderita sesuai.
Pengaturan yang tidak tepat item. item Uji biasanya diatur dalam urutan kesulitan
dengan item termudah pertama. Menempatkan item yang sulit di awal tes dapat
menyebabkan murid untuk menghabiskan terlalu banyak waktu pada ini dan
mencegah mereka dari mencapai barang-barang mereka dengan mudah bisa
menjawab. Pengaturan yang tidak tepat juga dapat mempengaruhi validitas dengan
memiliki efek yang merugikan pada motivasi murid.
Pola diidentifikasi jawaban. Menempatkan jawaban dalam beberapa pola yang
sistematis (misalnya, T, T, F, F, atau A, B, C, D, A, B, C, D) akan memungkinkan
siswa untuk menebak jawaban atas beberapa item yang lebih mudah dan ini akan
menurunkan validitas.
Singkatnya, cacat dalam pembangunan tes yang mencegah item tes dari berfungsi
selaras dengan tujuan penggunaannya akan memberikan kontribusi pada
ketidakabsahan pengukuran. Banyak dari apa yang tertulis dalam bab-bab berikut
diarahkan meningkatkan validitas hasil yang diperoleh dengan tes kelas dan
instrumen evaluasi lainnya.
Berfungsi Konten dan Pengajaran Prosedur 99
Dalam kasus pengujian prestasi, isi berfungsi item tes tidak dapat ditentukan hanya
dengan memeriksa bentuk dan isi tes. Misalnya, item berikut mungkin muncul
untuk mengukur penalaran ilmu hitung jika diperiksa tanpa mengacu pada apa yang
siswa telah diajarkan:
Jika pipa 40 'dipotong sehingga bagian yang lebih pendek adalah 2/3 selama lagi
sepotong, apa yang panjang dari potongan yang lebih pendek?
Namun, jika guru telah mengajarkan solusi untuk masalah tertentu sebelum
memberikan tes, item tes sekarang ukuran tidak lebih dari pengetahuan hafal.
Demikian pula, tes pemahaman, berpikir kritis, dan kompleks hasil belajar lainnya
adalah tindakan yang sah di daerah ini hanya jika item tes berfungsi sebagaimana
dimaksud. Jika murid sebelumnya telah diajarkan solusi untuk masalah-masalah
tertentu yang termasuk dalam ujian, atau telah diajarkan langkah mekanik untuk
mendapatkan solusi, tes tersebut tidak bisa lagi dianggap instrumen yang valid
untuk mengukur proses mental yang lebih kompleks.
Faktor-faktor di Uji Administrasi dan Scoring 100
Administrasi dan scoring tes juga dapat memperkenalkan faktor yang memiliki efek
yang merugikan pada keabsahan hasil. Dalam kasus tes buatan guru, faktor-faktor
seperti waktu yang cukup untuk menyelesaikan tes, bantuan tidak adil untuk siswa
individu yang meminta bantuan, kecurangan selama pemeriksaan, dan skor tidak
dapat diandalkan jawaban esai akan cenderung untuk menurunkan validitas. Dalam
kasus tes standar, kegagalan untuk mengikuti petunjuk standar dan batas waktu,
memberikan bantuan siswa yang tidak sah, dan kesalahan dalam mencetak gol
sama akan berkontribusi pada validitas rendah. Untuk semua jenis tes, kondisi fisik
dan psikologis yang merugikan pada saat pengujian juga mungkin memiliki efek
yang merugikan.
Faktor-faktor dalam Responses Murid ' 100
Dalam beberapa kasus, hasil tes tidak valid karena faktor personal yang
mempengaruhi respon pupil terhadap situasi tes daripada segala kekurangan dalam
instrumen tes. Siswa dapat terhambat oleh gangguan emosi yang mengganggu
hasil tes mereka. Beberapa murid ketakutan karena situasi tes dan dengan
demikian tidak mampu merespon secara normal. Yang lain tidak termotivasi untuk
mengajukan upaya terbaik mereka. Ini dan faktor lain yang membatasi dan
memodifikasi respon murid dalam situasi tes jelas akan menurunkan validitas hasil
tes.
Faktor kurang jelas yang mempengaruhi hasil tes adalah bahwa respon ditetapkan.
11 Satu set respon kecenderungan yang konsisten untuk mengikuti pola tertentu
dalam menanggapi untuk menguji item. Sebagai contoh, beberapa orang akan
merespon "benar" ketika mereka tidak tahu jawaban untuk item benar-salah,
sementara orang lain akan cenderung untuk menandai "palsu." Sebuah tes dengan
sejumlah besar laporan yang benar sehingga akan menguntungkan bagi tipe
pertama orang dan kelemahan dari jenis kedua. Meskipun beberapa set respon,
seperti yang diilustrasikan, dapat diimbangi dengan prosedur yang cermat uji
konstruksi (misalnya, termasuk jumlah yang sama pernyataan benar dan salah
dalam ujian) set respon lain yang lebih sulit dikendalikan. Khas respon set dalam
kategori terakhir ini adalah kecenderungan untuk bekerja untuk kecepatan bukan
ketepatan, kecenderungan untuk berjudi bila ragu, dan penggunaan gaya tertentu
dalam menanggapi tes esai. Respon set ini mengurangi keabsahan hasil pengujian
dengan memperkenalkan faktor-faktor nilai tes yang tidak relevan dengan tujuan
pengukuran. 12
Sifat Grup dan Kriteria tersebut 101
Validitas selalu spesifik untuk kelompok tertentu. Tes aritmatika berdasarkan
masalah cerita, misalnya, dapat mengukur kemampuan penalaran dalam kelompok
lambat, dan kombinasi recall sederhana informasi dan keterampilan komputasi
dalam kelompok yang lebih maju. Demikian pula, nilai pada tes ilmu pengetahuan
dapat menyumbang sebagian besar dengan membaca pemahaman dalam satu
kelompok dan dengan pengetahuan tentang fakta-fakta lain. Apa langkah-langkah
uji dipengaruhi oleh faktor-faktor seperti usia, jenis kelamin, tingkat kemampuan,
latar belakang pendidikan, dan latar belakang budaya. Dengan demikian, dalam
menilai laporan uji validitas termasuk dalam manual tes, atau sumber lain, penting
Jika sesama guru mengatakan kepada Anda bahwa tes prestasi standar tertentu
memiliki validitas yang tinggi, apa jenis pertanyaan yang akan Anda ajukan
padanya?
Jenis validitas diilustrasikan oleh masing-masing pernyataan berikut?
a. a. Skor tes berkorelasi dengan nilai saja.
b. b. Sebuah tes dianalisis untuk melihat bagaimana hal itu cukup sampel apa
yang telah diajarkan.
c. c. Seorang guru membangun tabel harapan.
d. d. Skor tinggi dan skor rendah pada tes dibandingkan untuk melihat bagaimana
mereka berbeda.
e. e. Validitas ditentukan oleh analisis logis saja.
Apa keuntungan dari tabel harapan atas koefisien validitas untuk mengungkapkan
efektivitas prediktif dari tes bakat skolastik? Apa beberapa keterbatasan?
Apakah ada tipe tertentu bukti mungkin berguna dalam mengevaluasi validitas
konstruk dari masing-masing berikut ini?
a. a. Uji berpikir kritis.
b. b. Tes kreativitas.
c. c. Uji kecemasan.
Pelajari bagian validitas manual tes untuk beberapa tes prestasi standar dan tes
bakat skolastik. Bagaimana informasi yang berbeda untuk kedua jenis tes? Why?
Mengapa?
Konsultasikan bagian validitas dari Standar untuk Pendidikan dan Tes Psikologi (lihat
daftar bacaan untuk bab ini) dan meninjau jenis informasi yang manual tes harus
berisi. Bandingkan manual tes baru-baru terhadap Standar.
10. Daftar dan jelaskan secara singkat sebagai banyak faktor yang Anda bisa
memikirkan yang mungkin menurunkan validitas norma-referenced tes kelas.
Lakukan hal yang sama untuk kriteria-referenced tes. Faktor-faktor yang berbeda?
SARAN UNTUK BACAAN LEBIH LANJUT
. American Psychological Association . Standar Pendidikan dan Tes Psikologi
Washington, D C.:. APA, 1974. Lihat bagian tentang validitas (halaman 25-48) untuk
deskripsi dari tipe dasar dan sifat informasi validitas harus dicari dalam uji manual.
Anastasi , A. Psychological Testing, 4th ed. New York: Macmillan Publishing Co, Inc,
1976 Bab 6, "Validitas:. Konsep Dasar". Menjelaskan jenis standar validitas dan
metode penentuan mereka.
Cronbach , LJ "Validitas," Bab 14 di RL Thorndike (ed.), Pendidikan Pengukuran.
Washington, DC: American Council on Education 1971 Sebuah diskusi komprehensif
validitas, dengan penekanan khusus pada tes pendidikan..
Popham , WJ, dan TR Husek . "Implikasi Kriteria-Referensi Pengukuran," di WJ
Popham (ed.), Kriteria-Referensi Pengukuran. Englewood Cliffs, NJ:. Teknologi
Pendidikan Publications, 1971 Menjelaskan karakteristik pengukuran kriteriareferenced dan kesulitan memperoleh langkah-langkah yang berarti validitas dan
kehandalan.
Uji Bulletin
Wesman , AG . ganda-Entry Harapan Tabel Uji Service Bulletin, No 45 New York:..
The Psychological Corporation, 1966 buletin ini menjelaskan dan menggambarkan
bagaimana mempersiapkan tabel harapan menggunakan dua prediktor.
BAB 5
KEANDALAN DAN KARAKTERISTIK DIINGINKAN LAINNYA
Sebelah validitas, reliabilitas adalah karakteristik yang paling penting dari hasil
evaluasi. . . . . . . Keandalan (1) memberikan konsistensi yang membuat validitas
mungkin, dan (2) menunjukkan berapa banyak keyakinan kita dapat menempatkan
dalam hasil kami. . . . . . . Kepraktisan prosedur evaluasi adalah, tentu saja, juga
menjadi perhatian guru kelas sibuk.
Dalam Bab 4 itu menekankan bahwa validitas adalah pertimbangan yang paling
penting dalam pemilihan dan konstruksi prosedur evaluasi. Pertama dan terpenting
kami ingin hasil evaluasi untuk melayani penggunaan spesifik yang mereka
dimaksudkan. Selanjutnya dalam pentingnya adalah kehandalan, dan berikut ini
yang merupakan sejumlah fitur praktis yang terbaik dapat diklasifikasikan ke dalam
pos dari kegunaan.
KEANDALAN 105
Keandalan mengacu pada konsistensi pengukuran. Artinya, bagaimana skor tes
konsisten atau hasil evaluasi lain dari satu pengukuran ke yang lain. Anggaplah,
misalnya, bahwa Miss Jones baru saja diberi tes prestasi untuk murid-muridnya.
Bagaimana serupa akan skor siswa 'bila dia diuji mereka kemarin atau besok atau
minggu depan? Bagaimana nilai bervariasi telah ia memilih sampel yang berbeda
dari item yang setara? Jika itu adalah tes esai, berapa banyak akan nilai telah
diubah telah guru yang berbeda mencetak gol itu? Ini adalah jenis pertanyaan yang
dengan keandalan yang bersangkutan. Nilai tes hanya memberikan ukuran terbatas
perilaku yang diperoleh pada waktu tertentu. Kecuali pengukuran dapat terbukti
cukup konsisten (yaitu, digeneralisasikan) lebih berbeda
mm
kesempatan atau lebih sampel yang berbeda dari perilaku yang sama, sedikit
kepercayaan dapat ditempatkan dalam hasil.
Di sisi lain, kita tidak bisa mengharapkan hasil pengujian yang akan benar-benar
konsisten. Ada banyak faktor selain kualitas yang diukur yang dapat mempengaruhi
nilai tes. Jika tes tunggal diberikan kepada kelompok yang sama dua kali dalam
suksesi dekat, beberapa variasi dalam nilai dapat diharapkan karena fluktuasi
sementara dalam memori, perhatian, tenaga, kelelahan, ketegangan emosional,
menebak, dan faktor-faktor yang sama. Dengan jangka waktu yang lebih lama
antara tes, variasi tambahan dalam skor dapat disebabkan oleh intervensi
pengalaman belajar, perubahan kesehatan, lupa, dan kondisi pengujian kurang
sebanding. Jika kita menggunakan sampel yang berbeda dari item dalam tes kedua,
masih faktor lain yang mungkin mempengaruhi hasil. Individu mungkin menemukan
satu tes lebih mudah daripada yang lain karena kebetulan berisi item lebih lanjut
tentang topik tertentu yang mereka kenal. 9 faktor-faktor luar Seperti ini
memperkenalkan sejumlah kesalahan dalam semua nilai tes. Metode penentuan
keandalan pada dasarnya berarti menentukan berapa banyak kesalahan yang hadir
dalam kondisi yang berbeda. Secara umum, lebih konsisten hasil tes kami berasal
dari satu pengukuran ke yang lain, semakin sedikit kesalahan saat dan, akibatnya,
semakin besar keandalan.
Arti dari keandalan, seperti yang diterapkan untuk pengujian dan evaluasi, dapat
lebih diperjelas dengan mencatat poin umum berikut:
Keandalan mengacu pada hasil yang diperoleh dengan instrumen evaluasi dan tidak
instrumen itu sendiri. Setiap instrumen tertentu mungkin memiliki sejumlah
reliabilitas yang berbeda, tergantung pada kelompok yang terlibat dan situasi di
mana ia digunakan. Oleh karena itu lebih tepat untuk berbicara tentang keandalan
"skor tes," atau "pengukuran," daripada "tes", atau "instrumen."
Sebuah titik yang terkait erat adalah bahwa perkiraan keandalan selalu mengacu
pada jenis tertentu dari konsistensi. Nilai tes tidak dapat diandalkan pada
umumnya. Mereka dapat diandalkan (atau digeneralisasikan) selama periode waktu
yang berbeda, lebih sampel yang berbeda dari pertanyaan, lebih dari penilai yang
berbeda, dan sejenisnya. Hal ini dimungkinkan untuk nilai tes untuk konsisten
dalam salah satu hal ini dan tidak di negara lain. Jenis yang sesuai konsistensi
dalam kasus tertentu ditentukan oleh penggunaan dibuat dari hasil. Sebagai
contoh, jika kita ingin tahu apa yang orang akan seperti pada beberapa waktu
mendatang, keajegan skor sangat penting. Di sisi lain, jika kita ingin mengukur
pergeseran individu dalam kecemasan dari waktu ke waktu, kita akan
membutuhkan ukuran yang tidak memiliki keteguhan atas kesempatan untuk
mendapatkan informasi yang kita inginkan. Jadi, untuk interpretasi yang berbeda
kita perlu analisis yang berbeda dari konsistensi. Mengobati keandalan sebagai
karakteristik umum hanya dapat menyebabkan interpretasi yang salah.
Keandalan adalah perlu tetapi bukan kondisi yang cukup untuk validitas. Sebuah tes
yang memberikan hasil yang benar-benar konsisten tidak mungkin memberikan
informasi yang valid tentang perilaku yang diukur. Di sisi lain, hasil tes yang sangat
konsisten dapat mengukur hal yang salah atau dapat digunakan dalam cara-cara
yang tidak pantas. Dengan demikian, keandalan rendah dapat diharapkan untuk
membatasi tingkat validitas yang diperoleh, tapi keandalan yang tinggi tidak
memberikan jaminan bahwa tingkat memuaskan validitas akan hadir. Singkatnya,
keandalan hanya memberikan konsistensi yang membuat validitas mungkin.
Meskipun ukuran yang sangat handal mungkin memiliki sedikit atau tidak ada
validitas, ukuran yang telah terbukti memiliki tingkat validitas prediktif memuaskan
kebutuhan harus memiliki keandalan yang cukup. Jadi, di mana kita hanya tertarik
dalam memprediksi kriteria tertentu, keandalan akan sedikit perhatian jika validitas
prediktif yang memuaskan. 10 4. Tidak seperti validitas, reliabilitas terutama
statistik di alam. Analisis logis dari tes akan memberikan sedikit bukti mengenai
keandalan skor. Tes harus diberikan, satu atau beberapa kali, untuk kelompok yang
tepat orang dan konsistensi hasil ditentukan. Konsistensi ini dapat dinyatakan
dalam hal pergeseran dalam kedudukan relatif orang dalam kelompok atau dalam
hal jumlah variasi yang diharapkan dalam skor individu tertentu itu. Konsistensi dari
tipe pertama dilaporkan dengan menggunakan koefisien korelasi disebut koefisien
reliabilitas. Konsistensi jenis kedua dilaporkan dengan cara kesalahan baku
pengukuran. Kedua metode mengekspresikan keandalan secara luas digunakan dan
harus dipahami oleh orang-orang yang bertanggung jawab untuk menafsirkan hasil
tes. 11 Karena kedua metode memerlukan variabilitas dalam skor, prosedur ini
untuk memperkirakan kehandalan terutama berguna dengan norma-referenced
tindakan.
Menentukan Keandalan oleh Metode Korelasi
107
adalah untuk mencari bukti stabilitas yang sesuai dengan penafsiran tertentu yang
akan dibuat.
Kebanyakan guru tidak akan menemukan mungkin untuk menghitung koefisien
reliabilitas test-retest untuk tes kelas mereka sendiri. Namun, dalam memilih tes
standar stabilitas nilai berfungsi sebagai salah satu kriteria penting. Manual tes
harus memberikan bukti stabilitas, menunjukkan interval waktu antara tes dan
setiap pengalaman yang tidak biasa anggota kelompok mungkin memiliki antara
pencobaan. Hal lain dianggap sama (seperti validitas), kita akan mendukung tes
yang nilainya telah terbukti memiliki jenis stabilitas yang kita butuhkan untuk
membuat keputusan suara.
Informasi yang berkaitan dengan stabilitas nilai tes juga memiliki implikasi untuk
penggunaan hasil tes dari catatan sekolah dan frekuensi yang diperlukan pengujian
ulang. Kita tahu, misalnya, bahwa bakat skolastik pertama-kelas nilai tes yang
cukup stabil selama kesempatan dalam tahun yang sama, tetapi relatif stabil
selama beberapa tahun. Dengan demikian, kita dapat berharap untuk
menggunakan hasil tersebut dalam menentukan kesiapan untuk bekerja pertamakelas, tetapi tidak harus bergantung pada mereka untuk perkiraan kemampuan
belajar di kelas-kelas SD nanti. Untuk penggunaan ini, tes kedua perlu diberikan
pada awal periode SD nanti. Demikian pula, ketika menggunakan setiap skor tes
dari catatan permanen, orang harus memeriksa tanggal pengujian dan data
stabilitas yang tersedia untuk menentukan apakah hasilnya masih bisa diandalkan.
Jika ada keraguan dan keputusan penting, pengujian ulang adalah dalam rangka.
Metode Equivalent-Forms. Memperkirakan reliabilitas dengan menggunakan
metode yang setara-bentuk melibatkan penggunaan dua bentuk yang berbeda
namun setara dengan tes (juga disebut paralel atau bentuk-bentuk alternatif). 1
Kedua bentuk tes yang diberikan kepada kelompok yang sama murid dalam suksesi
dekat dan skor tes yang dihasilkan berkorelasi. Koefisien korelasi ini memberikan
ukuran kesetaraan. Dengan demikian, hal ini menunjukkan sejauh mana kedua
bentuk tes yang mengukur aspek perilaku yang sama.
Perlu dicatat bahwa metode setara-bentuk memberitahu kita apa-apa tentang
stabilitas karakteristik murid yang diukur. Koefisien reliabilitas ini mencerminkan
sejauh mana tes merupakan sampel yang memadai dari karakteristik yang sedang
diukur. Dalam pengujian prestasi, misalnya, ada ribuan pertanyaan yang mungkin
ditanyakan dalam tes tertentu. Namun, karena batas waktu dan faktor membatasi
lain, hanya sejumlah pertanyaan tes mungkin dapat digunakan. Jika pertanyaanpertanyaan yang termasuk dalam tes memberikan sampel yang memadai dari
pertanyaan yang mungkin di daerah. Cara termudah untuk memperkirakan apakah
tes mengukur sampel yang memadai dari konten adalah untuk membangun dua
bentuk tes dan mengkorelasikan hasil. Sebuah korelasi yang tinggi menunjukkan
bahwa kedua bentuk mengukur konten yang sama dan oleh karena itu mungkin
sampel yang dapat diandalkan dari wilayah umum konten yang diukur.
n i. ui. ni, . 2 x .60 1.20 _ Keandalan pada tes penuh = ^ "^ "JGQ ".10
Koefisien korelasi ini dari 75, maka, memberikan perkiraan keandalan. dari tes
penuh di mana setengah-tes berkorelasi .60.
The split-setengah metode adalah mirip dengan metode setara-bentuk dalam hal itu
menunjukkan sejauh mana sampel item tes adalah sampel yang memadai dari
konten yang diukur. Sebuah korelasi yang tinggi antara skor pada kedua bagian tes
menunjukkan kesetaraan dua bagian dan akibatnya kecukupan sampling. Namun,
seperti metode setara-bentuk, ia memberitahu apa-apa tentang perubahan individu
dari satu waktu ke lain.
Kuder-Richardson Metode. Cara lain untuk memperkirakan keandalan skor tes dari
administrasi tunggal dari satu bentuk tes adalah dengan cara formula seperti yang
dikembangkan oleh Kuder dan Richardson. 12 Formula ini juga memberikan ukuran
konsistensi internal , tetapi mereka tidak memerlukan pemisahan tes dalam
setengah untuk tujuan skor. Salah satu formula, yang disebut Kuder-Richardson
Formula 20, didasarkan pada proporsi orang yang lewat setiap item dan standar
deviasi dari nilai keseluruhan. 0 perhitungan ini agak rumit, kecuali informasi sudah
tersedia mengenai proporsi melewati setiap item , tapi theresult sama dengan ratarata semua split-setengah kemungkinan koefisien untuk kelompok diuji.
Sebuah formula kurang akurat tapi lebih sederhana untuk menghitung adalah
Kuder-Richardson Formula 21. Formula ini dapat diterapkan pada hasil dari setiap
tes yang telah mencetak berdasarkan jumlah jawaban yang benar. Sebuah versi
modifikasi dari formula 13 adalah hal, mereka mirip dengan metode setara-bentuk
tanpa interval waktu. Hanya prosedur tes-tes ulang menunjukkan sejauh mana hasil
tes digeneralisasikan atas periode waktu yang berbeda.
Membandingkan Metode Korelasi. Seperti tercantum dalam diskusi kami
sebelumnya, masing-masing metode estimasi reliabilitas memberikan informasi
yang berbeda mengenai konsistensi hasil tes. Ringkasan informasi ini disajikan pada
Tabel 5.2. Tabel ini menjelaskan fakta bahwa sebagian besar metode yang
Keandalan Estimate (KR21) =
M (KM) ' Ks 2
dimana K = jumlah item dalam ujian
M = mean (rata-rata aritmatika) dari skor tes s = deviasi standar dari nilai tes
Formula ini akan menghasilkan kira-kira hasil yang sama seperti Kuder-Richardson
Formula 20, tetapi dalam banyak kasus perkiraan keandalan akan lebih kecil. 14
kepala Keuntungannya adalah kemudahan yang dapat diterapkan.
Jika uji manual tidak melaporkan kesalahan baku pengukuran, Tabel 5.3 dapat
digunakan untuk memperkirakan standard error. Sebenarnya ini adalah tujuan yang
meja dikembangkan. Semua orang perlu lakukan untuk mendapatkan perkiraan
standard error untuk tes yang diberikan adalah memasukkan kolom dan baris
terdekat dengan koefisien keandalan dan standar deviasi dilaporkan dalam uji
manual. Sebagai contoh, koefisien reliabilitas 0,92 dan deviasi standar 16 akan
menghasilkan kesalahan standar 5.1. Hal ini diperoleh dengan turun kolom kedua
(.90). sampai Anda datang ke baris di mana deviasi standar 16. contoh kami mirip
dengan data yang sering dilaporkan untuk tes kecerdasan kelompok.
Mengakibatkan kesalahan standar kurang lebih sama seperti yang digunakan dalam
ilustrasi kami sebelumnya dengan Mary Smith dan, tentu saja, ditafsirkan dengan
cara yang sama.
Ada beberapa tindakan pencegahan yang harus diingat ketika menggunakan Tabel
5.3 untuk memperkirakan kesalahan baku pengukuran. Pertama, koefisien
keandalan dan deviasi standar harus didasarkan pada kelompok yang sama orang.
Kedua, masuk ke meja dengan koefisien reliabilitas dan standar deviasi terdekat
mereka dalam manual memberi Anda hanya perkiraan kesalahan standar
pengukuran. Ketiga, tabel tidak memperhitungkan fakta bahwa kesalahan baku
pengukuran sedikit bervariasi pada tingkat nilai yang berbeda. Dalam keterbatasan
ini, bagaimanapun, Tabel 5.3 memberikan sebuah metode yang sederhana dan
cepat untuk memperkirakan kesalahan baku pengukuran dan perkiraan yang cukup
akurat untuk aplikasi yang paling praktis dari hasil tes.
Kesalahan standar pengukuran memiliki dua keunggulan khusus sebagai sarana
untuk memperkirakan kehandalan. Pertama, perkiraan dalam satuan yang sama
dengan skor tes. Hal ini memungkinkan untuk langsung menunjukkan margin of
error untuk memungkinkan ketika menafsirkan nilai individu. Kedua, standard error
kemungkinan akan tetap cukup konstan saat Anda pergi dari satu kelompok ke
kelompok. Hal ini tidak benar dari koefisien reliabilitas yang sangat tergantung pada
penyebaran nilai dalam kelompok diuji. Karena kelompok yang reliabilitas
dilaporkan dalam manual tes akan selalu agak berbeda dari kelompok diberikan tes,
keteguhan lebih besar dari kesalahan baku pengukuran memiliki nilai praktis yang
jelas. Kesulitan utama yang dihadapi dengan standard error terjadi ketika kita ingin
membandingkan dua tes yang menggunakan berbagai jenis nilai. Berikut koefisien
reliabilitas adalah satu-satunya ukuran yang sesuai.
murid sama ini mengambil tes dengan seratus item benar dan salah tebakan yang
benar itu akan cenderung dibatalkan oleh tebakan yang salah, dan skor akan
menjadi indikasi lebih diandalkan pengetahuan yang sebenarnya.
Fakta bahwa tes lagi cenderung memberikan hasil yang lebih dapat diandalkan
tersirat sebelumnya dalam diskusi kita tentang metode split-setengah. Perlu diingat
bahwa ketika skor dari dua bagian dari tes 'berkorelasi .60 rumus Spearman-Brown
memperkirakan keandalan skor untuk tes full-length menjadi 75. Ini, tentu saja,
adalah setara dengan memperkirakan peningkatan keandalan yang diharapkan
ketika panjang dari tes ini adalah dua kali lipat.
Ada satu reservasi penting dalam mengevaluasi pengaruh panjang uji pada
keandalan nilai, yaitu bahwa laporan kami telah membuat mengasumsikan bahwa
tes akan diperpanjang dengan menambahkan item tes kualitas yang sama seperti
yang sudah di uji. Menambahkan sepuluh kata ejaan yang begitu mudah sehingga
setiap orang akan membuat mereka benar atau menambahkan sepuluh kata ejaan
yang begitu sulit sehingga tak seorang pun akan membuat mereka benar tidak akan
meningkatkan keandalan dari nilai pada tes ejaan norma-referenced. Bahkan tidak
akan ada pengaruh pada koefisien reliabilitas karena penambahan tersebut tidak
akan mempengaruhi berdiri relatif siswa dalam kelompok.
Dalam membangun tes kelas adalah penting untuk diingat pengaruh panjang uji
pada keandalan dan berusaha untuk tes lagi. Dimana tes pendek diperlukan karena
batas waktu atau usia siswa, tes yang lebih sering dapat digunakan untuk
mendapatkan ukuran diandalkan prestasi.
Dalam menggunakan tes standar, kita harus waspada terhadap skor sebagian
didasarkan pada item yang relatif sedikit. Skor tersebut biasanya rendah dalam
kehandalan dan nilai praktis sedikit atau tidak ada. Sebelum menggunakan nilai
seperti manual tes harus hati-hati diperiksa untuk reliabilitas mereka dilaporkan.
Jika ini tidak dilaporkan, atau sangat rendah, skor bagian harus diabaikan dan hanya
total nilai tes harus digunakan.
Penyebaran Skor. Seperti disebutkan sebelumnya koefisien reliabilitas secara
langsung dipengaruhi oleh penyebaran skor pada kelompok diuji. Hal lain dianggap
sama, semakin besar penyebaran skor, semakin tinggi perkiraan keandalan. Karena
koefisien reliabilitas lebih besar terjadi ketika individu cenderung untuk tinggal di
posisi yang relatif sama dalam kelompok, dari satu pengujian ke yang lain, secara
alamiah bahwa apa pun yang mengurangi kemungkinan pergeseran posisi dalam
kelompok juga memberikan kontribusi untuk koefisien reliabilitas lebih besar. Dalam
hal ini perbedaan yang lebih besar antara nilai individu mengurangi kemungkinan
pergeseran posisi. Dengan kata lain, kesalahan pengukuran kurang berpengaruh
pada posisi relatif individu di mana perbedaan di antara anggota kelompok large
"yaitu, di mana ada berbagai penyebaran skor.
Hal ini dapat dengan mudah digambarkan tanpa bantuan statistik. Bandingkan dua
set berikut skor dalam hal probabilitas bahwa individu akan tetap berada di posisi
yang relatif sama pada administrasi kedua tes. Bahkan pemeriksaan sepintas skor
ini akan membuat jelas bahwa orang-orang di Grup B lebih cenderung bergeser
posisi pada pemerintahan kedua tes. Dengan hanya penyebaran sepuluh poin dari
top skor dengan skor bawah, pergeseran radikal dalam posisi dapat hasil dari
perubahan hanya beberapa poin dalam nilai ujian dari orang-orang ini.
Namun, di Grup A nilai tes individu bisa bervariasi oleh beberapa poin, administrasi
kedua tes, dengan sangat sedikit pergeseran dalam posisi relatif dari anggota
kelompok. Penyebaran besar nilai tes di Grup A membuat pergeseran dalam posisi
relatif tidak mungkin, dan dengan demikian memberi kita keyakinan yang lebih
besar bahwa perbedaan-perbedaan di antara anggota kelompok perbedaan nyata.
Grup A
Grup B
95 95
95 95
90 90
94 94
86 86
93 93
82 82
93 93
76 76
92 92
65 65
91 91
60 60
89 89
56 56
88 88
53 53
86 86
47 47
85 85
cenderung untuk meningkatkan keandalan skor tes dan pada saat yang sama
memiliki pengaruh positif pada validitas. Sewenang-wenang memanipulasi katakata dari item tes, hanya untuk membuat mereka lebih sulit, kemungkinan akan
menghasilkan peningkatan keandalan dengan mengorbankan validitas.
Dalam memilih tes standar, pengaruh penyebaran skor tes pada koefisien
reliabilitas juga harus dipertimbangkan. Sebagai contoh, banyak penerbit uji
melaporkan koefisien reliabilitas dihitung berdasarkan nilai tes selama beberapa
tingkatan kelas. Karena skor gabungan murid dari beberapa tingkatan kelas
memiliki penyebaran yang jauh lebih besar dari nilai daripada yang ditemukan pada
tingkat kelas tunggal, koefisien reliabilitas tersebut spuriously tinggi. Koefisien
reliabilitas ini harus diabaikan ketika memilih tes untuk tingkat kelas tertentu.
Setiap upaya harus dilakukan untuk mendapatkan bukti keandalan pada
sekelompok murid serupa dengan yang kami berencana untuk mengelola tes.
Hanya dengan cara ini kita dapat memiliki beberapa jaminan bahwa koefisien
reliabilitas yang dilaporkan dalam uji manual memberikan perkiraan memuaskan
keandalan tes untuk kelompok tertentu kami murid.
Kesulitan Test. Tes Norm-referenced yang terlalu mudah atau terlalu sulit bagi
anggota kelompok mengambil akan cenderung memberikan nilai keandalan rendah.
Hal ini disebabkan oleh fakta bahwa tes mudah dan sulit menghasilkan penyebaran
terbatas skor. Dalam kasus tes mudah, skor yang berdekatan di ujung atas skala.
Dengan ujian yang sulit, skor dikelompokkan bersama-sama di ujung bawah skala.
Untuk keduanya, namun, perbedaan antara individu-individu yang kecil dan
cenderung tidak bisa diandalkan. Sebuah tes mengacu-norma kesulitan yang ideal
akan mengizinkan skor untuk tersebar di berbagai skala, seperti yang ditunjukkan
pada Gambar 5.1.
Berarti Rentang
Keandalan perkiraan
Implikasi untuk pengujian kelas yang jelas dan disinggung dalam bagian
sebelumnya. Tes prestasi kelas yang dirancang untuk
GAMBAR 5.1. Perbandingan hipotetis distribusi skor tes dan estimasi koefisien
reliabilitas untuk tes norma-referenced 100 butir. (Keandalan dihitung dengan
rumus KR21 asumsi yang wajar standar deviasi.) perbedaan ukuran antara murid
(norma-referenced) harus dikonstruksi sedemikian sehingga skor rata-rata adalah
50 persen benar dan bahwa skor berkisar dari mendekati nol hingga mendekati
sempurna. Sebenarnya, 50 persen yang benar hanya berlaku untuk pendekjawaban jenis item. Untuk pemilihan jenis item, skor rata-rata yang ideal akan lebih
tinggi, karena sebagian dari barang-barang yang bisa menjawab dengan benar
menebak. Pada tes benar-salah, misalnya, siswa dapat diharapkan untuk
memiliki tingkat yang wajar keteguhan (stabilitas); dan (3) konsisten dari satu
bentuk tes yang lain, di mana bentuk-bentuk dimaksudkan untuk mengukur sampel
yang sama dari tugas-tugas belajar (kesetaraan). Sayangnya, kemampuan kita
untuk memperkirakan jenis konsistensi tidak cocok kebutuhan kita akan informasi
tersebut. Sejak tes penguasaan kriteria-direferensikan tidak dirancang untuk
membedakan antara individu-individu, dan dengan demikian variabilitas tidak perlu
hadir dalam skor, perkiraan korelasional tradisional kehandalan adalah tidak pantas.
Ada berbagai upaya untuk mengembangkan langkah-langkah statistik untuk
memperkirakan keandalan tes penguasaan kriteria-direferensikan, tetapi solusi
yang memuaskan belum tercapai. 18
Bila menggunakan tes penguasaan kriteria-direferensikan dalam instruksi kelas, kita
dapat meningkatkan kemungkinan hasil yang dapat diandalkan dengan
menggunakan sampel yang cukup besar item tes untuk setiap hasil belajar yang
akan diukur. Jika hasilnya sangat spesifik dan sangat terstruktur (misalnya,
menambahkan dua angka satu digit), jumlah yang relatif kecil item (katakanlah
lima) mungkin cukup untuk penghakiman diandalkan mengenai penguasaan. Untuk
sebagian besar keputusan penguasaan-nonmastery Namun, sepuluh item untuk
setiap hasil belajar spesifik akan menyediakan minimal lebih diinginkan. Dimana
keputusan instruksional didasarkan pada kurang dari sepuluh item, kita harus
membuat keputusan hanya tentatif
dan mencari verifikasi dari data lain yang tersedia dan dari observasi kelas.
How High Haruskah Keandalan Be? 124
Tingkat keandalan kami menuntut dalam langkah-langkah pendidikan kita sangat
tergantung pada sifat dari keputusan yang akan dibuat. Jika kita akan menggunakan
hasil tes sebagai dasar untuk memutuskan apakah akan meninjau daerah-daerah
tertentu dari materi pelajaran, kita mungkin bersedia untuk 1 menggunakan tes
buatan guru keandalan diketahui. Keputusan kami akan didasarkan pada nilai dari
total kelompok, dan inkonsistensi dalam nilai individu tidak akan mendistorsi
keputusan kami terlalu banyak. Bahkan jika kita keliru dalam keputusan kami, tidak
ada bencana besar akan menghasilkan. Yang terburuk yang bisa terjadi adalah
bahwa siswa akan mendapatkan review yang tidak perlu bahan, atau mereka akan
kehilangan review yang mungkin akan bermanfaat bagi mereka. Di sisi lain, jika kita
akan menggunakan hasil tes sebagai dasar untuk memutuskan mana siswa harus
ditempatkan di kelas khusus untuk cacat mental kita akan menuntut pengukuran
paling dapat diandalkan tersedia. Kita tidak akan puas dengan tes kelompok
intelijen untuk tujuan ini tetapi ingin menggunakan salah satu dari tindakan individu
lebih dapat diandalkan kecerdasan. Kita mungkin juga ingin memperoleh bukti yang
paling dapat diandalkan tersedia mengenai murid yang belajar, pembangunan
sosial, dan penyesuaian sebelum keputusan akhir dibuat. Keputusan ini sangat
penting dan konsekuensi begitu signifikan bahwa kita bersedia mencurahkan waktu
dan biaya untuk meningkatkan keandalan data kami bahkan jika kenaikan tersebut
sedikit. Kami ingin menjadi percaya diri sebagai mungkin bahwa kami akan
membuat keputusan yang tepat ketika kita menempatkan murid di kelas khusus
untuk cacat mental.
Hal ini tidak hanya pentingnya keputusan yang penting, tetapi juga apakah mungkin
untuk mengkonfirmasi atau membalikkan penghakiman di lain waktu. 19
Pengambilan keputusan dalam pendidikan jarang tunggal, tindakan terakhir. Ini
cenderung berurutan di alam, dimulai dengan penilaian agak kasar dan melanjutkan
melalui serangkaian penilaian yang lebih halus. Pada tahap awal pengambilan
keputusan keandalan rendah mungkin cukup lumayan, karena hasil tes yang
digunakan terutama sebagai panduan untuk mengumpulkan informasi lebih lanjut.
Sebagai contoh, berdasarkan tes kelas keandalan dipertanyakan kita mungkin
memutuskan bahwa beberapa murid kami mengalami kesulitan belajar seperti yang
bersifat serius yang mereka membutuhkan bantuan khusus. Keputusan ini
memberikan firasat yang berguna yang dapat dikonfirmasi atau disangkal oleh
pengujian lebih lanjut dengan langkah-langkah lebih diandalkan. Demikian pula,
inventarisasi kepribadian keandalan rendah mungkin berguna sebagai langkah
pertama dalam mendeteksi murid maladjusted, menyediakan mereka dengan skor
yang menunjukkan kemungkinan ketidakmampuan diikuti oleh penelitian yang lebih
intensif. Juga, kelompok skor bakat skolastik hanya stabilitas moderat mungkin
berguna dalam pengelompokan murid SD, karena mereka yang kesalahan klasifikasi
dapat dengan mudah bergeser sebagai bukti baru telah tersedia. Peluang untuk
konfirmasi dan pembalikan penilaian tanpa konsekuensi serius hampir selalu hadir
di tahap awal pengambilan keputusan pendidikan.
Yang penting ketika keandalan rendah, atau tidak dikenal, bukan untuk mengobati
skor seolah-olah mereka sangat akurat. Membuat penilaian tentatif, mencari
konfirmasi data, dan bersedia untuk membalikkan keputusan ketika salah. Beberapa
modifikasi dalam kebijakan sekolah juga mungkin diperlukan. Jika, misalnya,
kemampuan mental terbukti menjadi tidak stabil sampai enam belas usia,
seseorang tidak harus mengadopsi kebijakan klasifikasi yang membuat keputusan
tentang siapa yang akan berencana untuk pergi ke perguruan tinggi pada usia
sebelas tahun. Singkatnya, nilai tes keandalan rendah dapat berguna jika mereka
ditafsirkan dengan hati-hati dan hanya digunakan untuk keputusan reversibel
tentatif. 20
Dimana keputusan ireversibel akhir sedang dilakukan, kita akan, tentu saja,
terdorong untuk mencari informasi yang paling dapat diandalkan tersedia. Kami
tidak ingin beasiswa penghargaan, menolak pelamar perguruan tinggi, atau
melakukan seseorang ke rumah sakit jiwa atas dasar langkah-langkah dengan
keandalan rendah atau dipertanyakan.
Jadi, ketika kami meminta question tersebut "Seberapa tinggi seharusnya
menjadi keandalan? " beberapa pertimbangan harus diperhitungkan. Seberapa
penting adalah keputusan? Apakah yang dapat dikonfirmasi atau terbalik di lain
waktu? Seberapa jauh mencapai yang konsekuensi dari tindakan yang diambil?
Untuk keputusan penting yang ireversibel dan cenderung memiliki pengaruh besar
pada kehidupan murid individual, kita akan membuat tuntutan ketat pada
keandalan dari langkah-langkah yang kita gunakan. Untuk keputusan yang lebih
rendah, dan terutama bagi mereka yang dapat kemudian dikonfirmasi atau terbalik
tanpa konsekuensi serius, kami akan bersedia menerima tindakan kurang dapat
diandalkan. Dengan demikian, tergantung pada seberapa yakin kita perlu tentang
keputusan yang dibuat. Keyakinan yang lebih besar memerlukan keandalan yang
lebih tinggi.
USABILITY 125
Dalam memilih instrumen evaluasi, pertimbangan praktis tidak dapat diabaikan. Tes
biasanya diberikan dan diinterpretasikan oleh guru dengan hanya jumlah minimum
pelatihan dalam pengukuran. Waktu yang tersedia untuk pengujian hampir selalu
terbatas dan dalam kompetisi konstan dengan kegiatan penting lainnya untuk
waktu yang diberikan dalam jadwal sekolah. Demikian juga, biaya pengujian,
meskipun pertimbangan minor, adalah sebagai hati-hati diteliti oleh administrator
anggaran-sadar seperti pengeluaran dana lain sekolah. Ini dan faktor-faktor lain
yang berkaitan dengan oL kegunaan tes dan prosedur evaluasi harus
diperhitungkan ketika memilih instrumen evaluasi. Pertimbangan praktis seperti ini
terutama relevan dalam memilih tes standar untuk program pengujian sekolahlebar.
Ease of Administration Kemudahan Administrasi 126
Dimana tes yang akan diberikan oleh guru atau orang lain dengan pelatihan
terbatas, kemudahan administrasi adalah kualitas sangat penting untuk mencari
dalam uji coba. Untuk tujuan ini arah harus sederhana dan jelas, subyek harus
relatif sedikit, dan waktu tes seharusnya tidak terlalu sulit. Penyelenggara tes
dengan arah yang rumit dan sejumlah subyek kekal tetapi beberapa menit masingmasing adalah tugas berat untuk bahkan pemeriksa berpengalaman. Untuk orang
dengan little'training dan pengalaman, situasi seperti ini penuh dengan
kemungkinan kesalahan dalam memberikan arah, waktu, dan aspek lain dari
administrasi yang mungkin mempengaruhi hasil. Seperti kesalahan administrasi
harus, tentu saja, efek buruk pada validitas dan reliabilitas skor tes yang dihasilkan.
Waktu yang diperlukan untuk Administrasi 126
Dengan waktu untuk pengujian pada premium, kita akan selalu mendukung tes
lebih pendek, hal lain dianggap sama. Dalam hal ini hal-hal lain yang jarang sama,
namun, karena keandalan secara langsung berhubungan dengan panjang tes. Jika
kita mencoba untuk mengurangi terlalu banyak pada waktu yang dialokasikan
untuk pengujian kita cenderung untuk mengurangi secara drastis keandalan nilai
kami. Misalnya, tes dirancang untuk memenuhi periode kelas normal biasanya
menyediakan skor total tes rehability memuaskan, tetapi skor bagian mereka,
diperoleh dari subyek, cenderung dapat diandalkan. Jika kita ingin langkah-langkah
yang dapat diandalkan di wilayah yang dicakup oleh subyek, kita perlu
meningkatkan waktu pengujian kami di daerah masing-masing. Di sisi lain, jika kita
ingin ukuran umum di beberapa daerah, seperti kecerdasan verbal, kita dapat
memperoleh hasil yang dapat diandalkan dalam 30 atau 40 menit dan ada sedikit
keuntungan dalam memperpanjang waktu pengujian. Sebuah prosedur yang aman
adalah untuk membagikan waktu sebanyak yang diperlukan untuk mendapatkan
hasil yang valid dan reliabel dan tidak lebih. Di suatu tempat antara 20 dan 60
menit dari waktu pengujian untuk masing-masing skor individu yang dihasilkan oleh
tes standar mungkin merupakan panduan yang cukup baik.
Kemudahan Scoring 126
Secara tradisional, salah satu aspek yang paling membosankan dan menyusahkan
dari program pengujian sekolah telah menjadi skor tes. Di masa lalu, banyak guru
yang bekerja terlalu keras telah menghabiskan berjam-jam di tugas ini. Untuk
membuat prosedur bahkan lebih memberatkan daripada perlu, arah scoring yang
sering rumit, tes berisi berbagai subyek dan beberapa item tes subyektif, dan
tombol scoring yang rumit. Meskipun skor tes masih merupakan masalah yang
harus diperhitungkan, perkembangan terakhir dalam pengujian telah mereda beban
jauh. Perkembangan ini meliputi (1) kecenderungan menuju tes standar benar-benar
objektif, (2) meningkatkan kejelasan dalam petunjuk untuk mencetak gol dan
meningkatkan kesederhanaan dalam kunci scoring, (3) penggunaan lembar jawaban
yang terpisah, dan (4) mesin gol.
Dalam memilih tes standar, mereka yang membutuhkan jumlah minimal waktu,
keterampilan, dan biaya untuk penilaian harus diberikan preferensi. Penggunaan
lembar jawaban yang terpisah, misalnya, tidak hanya akan memberikan kontribusi
untuk kemudahan mencetak gol, tetapi juga akan mengurangi biaya pengujian
karena fakta bahwa buklet pengujian yang sama dapat digunakan lagi beberapa
kali. Selain itu, jika mesin gol tersedia dengan biaya yang wajar, lembar jawaban
yang terpisah bisa meringankan guru dari tugas ulama menjengkelkan. Faktor-faktor
tersebut harus diperhitungkan pada saat tes ini sedang dievaluasi, dan tidak ada
tes harus dipilih sampai ketentuan penilaian telah diberikan pemikiran yang
mendalam. Hal lain dianggap sama, kita akan mendukung tes yang memberikan
kemudahan dan ekonomi dari skor tanpa mengorbankan akurasi mencetak gol.
Kemudahan Interpretasi dan Aplikasi 127
Dalam analisis akhir, keberhasilan atau kegagalan program pengujian ditentukan
oleh penggunaan yang terbuat dari hasil tes. Jika mereka diinterpretasikan dengan
benar dan diterapkan secara efektif mereka akan memberikan kontribusi untuk
keputusan pendidikan yang lebih cerdas. Di sisi lain, jika hasil tes salah ditafsirkan
atau disalahgunakan atau tidak diterapkan pada semua mereka akan memiliki nilai
untuk mencari, dan tes kurang dalam kualitas ini terlalu mahal dengan harga
apapun. Di sisi lain, kontribusi yang nilai tes yang valid dan dapat diandalkan dapat
membuat keputusan pendidikan tampaknya menunjukkan bahwa tes tersebut
selalu ekonomis dalam jangka panjang.
SUMMARY RINGKASAN 128
Sebelah validitas, reliabilitas adalah kualitas yang paling penting untuk mencari
dalam hasil evaluasi. Keandalan mengacu pada bagaimana skor tes konsisten dan
hasil evaluasi lainnya adalah dari satu pengukuran ke yang lain. Dalam menafsirkan
dan menggunakan informasi kehandalan, penting untuk diingat bahwa perkiraan
keandalan mengacu pada hasil pengukuran, bahwa cara-cara yang berbeda untuk
memperkirakan keandalan menunjukkan berbagai jenis konsistensi, bahwa suatu
ukuran yang andal tidak selalu berlaku, dan kehandalan yang terutama statistik
konsep. Estimasi reliabilitas dapat dilaporkan dalam hal koefisien reliabilitas atau
kesalahan baku pengukuran.
Koefisien reliabilitas ditentukan dengan beberapa metode yang berbeda dan
masing-masing metode memberikan ukuran yang berbeda dari konsistensi. Metode
tes-tes ulang melibatkan pemberian tes yang sama dua kali untuk kelompok yang
sama dengan interval waktu intervensi, dan koefisien yang dihasilkan memberikan
ukuran stabilitas. Berapa lama interval waktu harus antara tes ditentukan terutama
oleh penggunaan harus terbuat dari hasilnya. Kami akan terutama tertarik pada
koefisien reliabilitas berdasarkan interval sebanding dengan periode waktu yang
tercakup dalam prediksi kami. Metode setara-bentuk melibatkan pemberian dua
bentuk tes untuk kelompok yang sama dalam suksesi dekat atau dengan interval
waktu intervensi. Hasil pertama dalam ukuran kesetaraan, dan yang kedua, dalam
ukuran stabilitas dan kesetaraan. Yang terakhir prosedur menyediakan tes yang
paling ketat keandalan, karena mencakup semua sumber variasi dalam skor tes.
Keandalan juga dapat diperkirakan dari administrasi tunggal dari satu bentuk tes,
baik dengan menghubungkan skor pada dua bagian dari tes atau dengan
menerapkan salah satu formula Kuder-Richardson. Kedua metode memberikan
ukuran konsistensi internal dan mudah diterapkan. Namun, mereka tidak berlaku
untuk tes dipercepat, dan mereka tidak memberikan informasi mengenai stabilitas
nilai tes dari hari ke hari.
Kesalahan standar pengukuran menunjukkan kehandalan dalam hal jumlah variasi
yang diharapkan dalam skor tes individu. Hal ini dapat dihitung dari koefisien
keandalan dan standar deviasi, tetapi sering dilaporkan langsung dalam manual tes.
Standard error ini sangat berguna dalam menafsirkan hasil tes, karena
menunjukkan "band kesalahan" yang mengelilingi setiap skor. Ini juga memiliki
keuntungan dari sisa cukup konstan dari satu kelompok ke kelompok.
Estimasi reliabilitas dapat bervariasi sesuai dengan panjang tes, penyebaran skor
pada kelompok diuji, kesulitan tes, objektivitas skor, dan metode estimasi
d. d. Mengubah dari tes pilihan ganda untuk tes esai yang mencakup sama
material. material.
Berapakah nilai relatif dari menggunakan kesalahan baku pengukuran atau
koefisien reliabilitas untuk mengekspresikan keandalan skor tes? Untuk yang
bertujuan masing-masing paling berguna?
Menggunakan Tabel 5.3, menentukan kesalahan baku pengukuran untuk satu set
nilai tes dengan standar deviasi 16 dan keandalan .83.
Pelajari bagian keandalan manual tes untuk beberapa tes bakat skolastik. Apa jenis
data keandalan dilaporkan? Dari apa nilai adalah jenis data dalam memutuskan
apakah akan memilih tes?
Konsultasikan bagian keandalan Standar Pendidikan dan Tes Psikologi (lihat daftar
bacaan untuk bab ini) dan meninjau jenis informasi yang manual tes harus berisi.
Bandingkan manual tes baru-baru terhadap Standar.
Dalam meninjau data keandalan dalam uji manual guru mencatat koefisien
reliabilitas berikut:
a. a. Korelasi Formulir A nilai tes selama suatu interval satu bulan = .90.
b. b. Korelasi Form A dengan Form B nilai tes selama suatu interval satu bulan
= .85
c. c. Korelasi skor tes didasarkan pada dua bagian (ganjil-genap) Formulir A
= .95.
Bagaimana Anda menjelaskan perbedaan-perbedaan dalam koefisien reliabilitas
(menganggap bahwa kelompok-kelompok yang diuji sama)? Yang estimasi
reliabilitas memberikan informasi yang paling berguna? Why? Mengapa?
9. 9. Daftar dan jelaskan secara singkat sebagai banyak hal yang Anda bisa
memikirkan bahwa kelas
guru yang mungkin dilakukan untuk meningkatkan keandalan kelas normareferenced nya
tests. tes. Bagaimana daftar berbeda untuk tes penguasaan kriteria-direferensikan?
10. Asumsikan Anda memilih baterai tes prestasi standar untuk diberikan setiap
tahun dari kelas empat sampai dua belas. Daftar di urutan pentingnya semua
karakteristik tes yang harus dipertimbangkan dan memberikan alasan untuk
penempatan tertentu dari setiap karakteristik dalam daftar Anda.
SARAN UNTUK BACAAN LEBIH LANJUT
Amerika Psychological Association. Standar Pendidikan dan Tes Psikologi.
Washington, DC:. APA, 1974 Lihat bagian tentang keandalan (halaman 48-55) untuk
deskripsi dari tipe dasar dan sifat informasi keandalan harus dicari dalam uji
manual.
Anastasi , A. Psychological Testing, 4th ed. New York: Macmillan Publishing Co, Inc,
1976 Bab. 5, "Keandalan." Menjelaskan berbagai jenis koefisien reliabilitas,
kesalahan standar pengukuran, dan faktor-faktor yang mempengaruhi keandalan.
Termasuk bahan pada keandalan tes kriteria-direferensikan.
Bauernfeind , RH Membangun Testing Program Sekolah, 2nd ed. Boston: Houghton
Mifflin Company, 1969 Bab 6,. "Konsep Keandalan." A, diskusi yang jelas sederhana
dari jenis dasar keandalan.
Cronbach , LJ Essentials of Psychological Testing, 3rd ed. New York:. Harper dan Row,
Publishers, 1970 Bab 6, "Karakteristik lainnya Diinginkan di Tes." Sebuah
pengobatan lanjutan keandalan dengan penekanan pada "generaliz-kemampuan"
dari hasil tes dan penggunaan analisis metode varians.
Stanley , JC "Keandalan," Bab 13 di RL Thorndike (ed.), Pendidikan Pengukuran.
Washington, DC: American Council on Education 1971 Sebuah pengobatan lanjutan
keandalan yang agak teknis..
Uji Buletin
Diedehich , P. Short-Cut Statistik untuk Guru-Made Tes. Princeton, NJ:. Educational
Testing Service 1973 Hadirkan metode sederhana untuk memperkirakan standard
error dan koefisien reliabilitas.
Doppelt , JE Hotu Akurat Apakah Test Score? Uji Service Bulletin, No 50 New York:..
The Psychological Corporation, 1956 Menjelaskan kesalahan baku pengukuran.
PART PART
ii ii
Membangun Tes Kelas
1 American Psychological Association, Standar Pendidikan dan Tes Psikologi
(Washington, DC: APA, 1974).
2 Koefisien korelasi juga dapat ditentukan oleh teknik momen-produk yang lebih
mudah untuk diterapkan ke kelompok besar. Lihat panduan komputasi dalam
Lampiran A.
3 Sebuah koefisien "1.00 juga akan memberi kita prediksi yang sempurna dari
satu variabel yang lain tetapi dalam pengukuran pendidikan kita yang paling sering
berkaitan dengan hubungan yang positif.
15 15 Konsistensi internal juga dapat ditentukan oleh koefisien alpha dan analisis
dari
16 Standar deviasi adalah ukuran penyebaran skor. Lihat Lampiran A untuk metode
komputasi.
17 Seperti disebutkan sebelumnya, langkah-langkah ini terutama berguna dengan
norma-referenced tes, di mana tujuannya adalah untuk membedakan antara
individu-individu.
18 RK Hambleton dan MR Novick, "Menuju Integrasi Teori dan Metode Pengujian
Kriteria-Referenced," Journal of Educational Measurement, 10, 159-170, Fall 1973.
19 LJ Cronbach, Essentials of Psychological Testing, 3rd ed. (New York: Harper dan
Row, 1970).
20 Tes Guru buatan umumnya memiliki reliabilitas suatu tempat antara .60 dan .85,
misalnya, tetapi ini berguna untuk jenis keputusan instruksional biasanya dibuat
oleh guru.
Original text
Contribute a better translation