Академический Документы
Профессиональный Документы
Культура Документы
61
61
62
Proses Evaluasi
Berkaitan Prosedur Evaluasi terhadap Tujuan Instruksional
Proses Evaluasi
Berkaitan Prosedur Evaluasi terhadap Tujuan Instruksional
64
65
Proses Evaluasi
Berkaitan Prosedur Evaluasi terhadap Tujuan Instruksional
Berkaitan Prosedur Evaluasi terhadap Tujuan Instruksional
67
Saya
G9
Proses Evaluasi
Berkaitan Prosedur Evaluasi terhadap Tujuan Instruksional
78
Proses Evaluasi
Keabsahan
83
Keabsahan
85
Keabsahan
87
Keabsahan
87
Keabsahan
89
Keabsahan
91
Keabsahan
103
ses Evaluasi
84
86
88
90
Proses Evaluasi
Proses Evaluasi
Proses Evaluasi
Proses Evaluasi
102
Proses Evaluasi
104
Proses Evaluasi
106
Proses Evaluasi
Keandalan dan Karakteristik Diinginkan Lainnya
112
Proses Evaluasi
112
Proses Evaluasi
Keandalan dan Karakteristik Diinginkan Lainnya
Proses Evaluasi
Keandalan dan Karakteristik Diinginkan Lainnya
124
123
Proses Evaluasi
Keandalan dan Karakteristik Diinginkan Lainnya
61
AMERIKA SERIKAT
E.
GRONLUND
DARI AMERIKA
All rights reserved. Tidak ada bagian dari buku ini yang boleh direproduksi atau ditransmisikan dalam bentuk
apapun atau dengan cara apapun, elektronik atau mekanik, termasuk fotokopi, rekaman, atau penyimpanan
informasi dan sistem pencarian, tanpa izin tertulis dari Penerbit.
Sebelumnya edisi hak cipta
MACMILLAN PUBLISHING CO,
866
1965
dan
1971
AKU NC.
10022
TD.
Orangtuaku
Library of Congress Katalogisasi di Publikasi data
Gronlund, Norman Edward, (tanggal)
Pengukuran dan evaluasi dalam mengajar.
D
a
f
t
a
r
P
u
s
t
a
k
a
:
p
.
T
e
r
m
a
s
u
k
i
n
d
e
k
s
.
1.
Pendidikan tes
dan pengukuran. I.
Judul.
LB3051.G74 1976
ISBN
37i ^ '6
75-4848
0-02-348050-5
Cetakan:
Tahun:
12345678
6789012
BAB
tertempel
di
di
akhir
pada
pengukuran
jumlah
bahan
faktual
dipertahankan; tidak terbatas pada pemeriksaan kertas dan pensil. Evaluasi adalah proses yang komprehensif
berkelanjutan yang memanfaatkan berbagai prosedur dan yang tak terelakkan terkait dengan tujuan program
pembelajaran.
Dalam bab terakhir, kami tidak khawatir dengan proses penyusunan tujuan instruksional untuk tujuan
evaluasi. Proses ini termasuk mengidentifikasi tujuan instruksional umum dan kemudian mendefinisikan masingmasing tujuan tersebut dengan daftar hasil pembelajaran yang spesifik. Langkah terakhir dalam proses evaluasi
adalah untuk memilih atau mengembangkan instrumen evaluasi yang memberikan bukti paling langsung
mengenai pencapaian setiap hasil belajar tertentu.
Urutan langkah-langkah yang ditunjukkan pada Gambar 3.1 meringkas prosedur umum ini berkaitan teknik
evaluasi untuk tujuan.
Langkah-langkah prosedural menjelaskan pentingnya berkaitan teknik evaluasi langsung ke hasil pembelajaran
tertentu sedang dievaluasi. Ini adalah satu-satunya cara kita dapat memiliki kepastian bahwa kita mengevaluasi
kemajuan murid menuju hasil yang kami telah terpilih sebagai tujuan instruksional kami.
Proses yang berkaitan dengan teknik evaluasi hasil belajar spesifik pada dasarnya adalah salah satu analisis
yang logis dan penilaian. Proses ini dapat sangat difasilitasi, namun, dengan penggunaan beberapa rencana
evaluasi yang sistematis.
RENCANA EVALUASI UMUM
Apakah guru adalah memutuskan pada prosedur evaluasi untuk unit kerja, kerja semester, atau urutan kursus,
beberapa rencana evaluasi umum yang diinginkan. Minimal, rencana ini harus mencakup daftar hasil pembelajaran
yang diinginkan dan teknik yang akan digunakan dalam mengevaluasi kemajuan mereka. Tabel berikut,
berdasarkan beberapa tujuan yang dikembangkan oleh Mr Brown, guru biologi kelas sepuluh kami, menggambarkan
prosedur untuk mengembangkan rencanaumum. Sistem penomoran adalah bahwa yang digunakan oleh Mr Brown
dan membantu mengidentifikasi masing-masing tujuan dalam daftar aslinya (lihat Tabel 2.1). Grafik evaluasi
lengkap akan, tentu saja, mencakup semua tujuan dan hasil pembelajaran yang spesifik diidentifikasi oleh Mr
Brown.
Mr Browns grafik untuk rencana evaluasi umum menjelaskan sejumlah poin penting tentang hubungan antara
tujuan instruksional dan prosedur evaluasi. Untuk satu hal, itu membuat jelas fakta bahwa hasil belajar tertentu,
dinyatakan dalam hal perilaku murid, begitu banyak dan beragam bahwa tidak ada teknik evaluasi tunggal
mungkin bisa memberikan bukti yang memadai tentang prestasi mereka. Meskipun tes objektif yang ditunjukkan
untuk banyak hasil belajar, daftar periksa, catatan anekdot, dan teknik observasi lainnya juga sering
disebutkan. Diagram ini juga menyoroti pentingnya pernyataan yang jelas dari tujuan dan hasil pembelajaran
dalam memilih teknik evaluasi. Bahkan, ketika hasil pembelajaran secara jelas dinyatakan dalam hal perilaku
murid,
mereka
tidak
hanya
menunjukkan apa
mengevaluasi. Sebagai
yang harus
contoh,
dievaluasi,
tetapi
mereka
istilah
juga
umum"
memberikan indikasi jenis teknik evaluasi yang harus digunakan. Hal ini menunjukkan bahwa murid harus
memberikan definisi sendiri. Oleh karena itu, tes jawaban singkat, di mana murid diberikan istilah yang dipilih dan
diminta untuk mendefinisikan mereka, adalah teknik yang paling tepat evaluasi. Item tes objektif, seperti
pertanyaan pilihan ganda, di mana murid harus hanya mengidentifikasi definisi, akan tidak memadai untuk
mengevaluasi hasil belajar ini, seperti yang dinyatakan. Tentu saja, hasil belajar yang spesifik dapat disajikan
kembali untuk membaca "Mengidentifikasi makna umum
1.
2.
3.
1.
2.
3.
6.4
1.
2.
3.
Selesaikan
diseksi
dalam
waktu
yang
1.
2.
3.
4.
Menggunakan daftar isi dan indeks ketika mencari informasi dalam buku-buku.
1.
2.
3.
4.
ditentukan.
5.
* Teknik Evaluasi berkaitan dengan belajar hasil dengan angka yang sesuai.
istilah "sehingga item tes objektif dapat digunakan. Namun, ini akan menjadi perubahan dalam perilaku tertentu Mr
Brown bersedia menerima sebagai bukti bahwa murid tahu istilah umum yang digunakan dalam biologi. Jika ia
percaya bahwa mengetahui istilah mengharuskan murid dapat menentukan istilah dalam kata-katanya sendiri,
satu-satunya prosedur yang memadai evaluasi adalah meminta murid untuk sehingga mendefinisikan istilah.
Kemampuan untuk mengidentifikasidefinisi yang benar tidak dapat diterima sebagai bukti kemampuan murid
untuk memberikan definisi yang benar.
Meskipun diskusi kita telah terfokus pada satu hasil pembelajaran yang spesifik, prinsip dasar menilai setiap
hasil belajar secara langsung mungkin adalah salah satu yang menjadi ciri khas seluruh chart. Misalnya, "6.1
membedakan antara fakta dan opini" dapat dievaluasi dengan tes objektif. Ini hanyalah masalah menyajikan murid
dengan sejumlah pernyataan dan memintanya untuk menunjukkan yang merupakan fakta dan mana yang
pendapat. Di sisi lain, bagaimanapun, "6.2 Menarik kesimpulan yang valid dari data yang diberikan" membutuhkan
tes pendek-jawaban karena hasilnya menunjukkan bahwa murid akan menarik kesimpulan sendiri dan tidak hanya
mengidentifikasi kesimpulan yang diambil oleh orang lain.Demikian pula, semua hasil yang berkaitan
dengan "8. Murid melakukan operasi dasar diseksi terampil" harus dievaluasi oleh beberapa perangkat observasi
seperti
daftar
atau
skala
prosedur
sebagai bukti keterampilan diseksi. Pengetahuan tentang prosedur dapat dan harus diukur untuk kepentingan diri
sendiri, tetapi keterampilan dapat dievaluasi hanya dengan langsung mengamati dan menilai diseksi prosedur
murid dan produk yang dihasilkan. Di bidang sikap ilmiah, seperti hasil belajar sebagai "12,1 penilaian menunda
sampai semua fakta yang tersedia" membutuhkan lebih dari satu jenis bukti karena sulitnya evaluasi. Catatan
anekdotal berdasarkan pengamatan sehari-hari di kelas dan laboratorium akan memberikan bukti tentang perilaku
khas murid dalam menghadapi masalah ilmiah. Tetapi karena kurangnya kesempatan untuk mengamati semua
siswa di situasi yang membutuhkan perilaku ini dan karena sifat subjektif dari pengamatan tersebut, juga
diinginkan untuk menggunakan item tes objektif. Item tes tersebut hanya melengkapi catatan anekdot, namun,
karena respon terhadap item tes objektif tidak menunjukkan bagaimana murid biasanya akan bersikap ketika
dihadapkan dengan masalah yang bersifat ilmiah. Singkatnya, kedua metode tidak memadai tetapi bersama-sama
mereka saling melengkapi dan memberikan bukti yang lebih memadai daripada baik akan sendirian. Untuk setiap
tujuan instruksional, kemudian, bagan evaluasi menunjukkan teknik evaluasi yang memberikan bukti paling
langsung dan memadai mengenai sejauh mana perilaku murid itu sesuai dengan hasil pembelajaran yang
diinginkan.
Sebuah grafik evaluasi, seperti Mr Brown, juga membuat jelas perlunya perencanaan program evaluasi pada
awal unit, atau kursus, instruksi. Jika data yang evaluatif harus diperoleh dengan menggunakan catatan anekdot,
skala rating, dan perangkat pengamatan lainnya, sifat
Teknik Evaluasi
Tujuan
dari pengamatan harus ditentukan di awal proses pembelajaran. Idealnya, perencanaan untuk evaluasi harus
terjadi pada waktu yang sama dengan rencana lain yang dibuat untuk kursus, ketika hal ini dilakukan, guru kadangkadang
dan
dalam
satu
rencana. Bagan berikut ini merupakan versi sederhana dari rencana untuk tujuan Mr Whiteside dalam penalaran
aritmatika di tingkat kelas empat:
Pengajaran Metode
Menyajikan siswa dengan berbagai masalah cerita yang mengandung fakta-fakta lebih dari yang diperlukan agar
siswa memperoleh latihan dalam mengidentifikasi masalah, dan memilih fakta yang relevan serta dalam
menghitung jawaban.
Murid menunjukkan kemampuan penalaran aritmatika ketika ia:
1.
2.
3.
4.
Termasuk tujuan, metode pengajaran, dan teknik evaluasi dalam satu rencana umum menyoroti keterkaitan
antara aspek ini mengajar di kelas dan meyakinkan bahwa perencanaan untuk evaluasi akan dilakukan pada awal
kursus. Dalam menggunakan prosedur ini, bagaimanapun, kita harus berhati-hati untuk tidak mencoba untuk
menghubungkan metode pengajaran terlalu dekat dengan tujuan instruksional. Salah satu metode (misalnya,
diskusi kelas) mungkin berhubungan dengan berbagai tujuan, seperti pengetahuan, pemahaman, keterampilan
komunikasi, dan penyesuaian sosial. Demikian pula, satu tujuan (misalnya, penghargaan) dapat menjadi hasil akhir
dari serangkaian pengalaman yang membutuhkan banyak metode pembelajaran. Dalam keterbatasan ini, rencana
seperti yang dikembangkan oleh Mr Whiteside dapat menambahkan arah umum untuk kedua pengajaran dan
proses evaluasi.
instruksi tercantum di bagian atas meja, dan semua bidang utama dari konten yang terdaftar di sisi meja. Sel-sel
dalam tabel yang digunakan untuk menunjukkan jumlah item tes harus siap untuk setiap hasil dari instruksi dan
untuk menggambarkan bagaimana hasil nontest akan dievaluasi. Sebuah versi sederhana dari tabel tersebut,
untuk unit cuaca dalam ilmu SMP, disajikan pada Tabel 3.1.
Ini akan dicatat dalam Tabel 3.1 bahwa dari lima puluh item dalam tes, dua belas akan mengukur "pengetahuan
tentang simbol dan istilah." Dua dari dua belas item akan peduli dengan "tekanan udara," empat dengan "angin,"
dua dengan "suhu," dua dengan "kelembaban dan curah hujan," dan dua dengan "awan." Angka-angka di kolom
lain yang harus dibaca dengan cara yang sama. Karena hasil keterampilan memerlukan evaluasi kinerja, kolom
tersebut berisi deskripsi singkat tentang prosedur evaluasi yang akan digunakan.
Penekanan relatif yang diberikan kepada masing-masing tujuan dan setiap area konten dalam tabel spesifikasi
harus, tentu saja, mencerminkan penekanan diberikan selama instruksi. Mereka hasil belajar yang menekankan
sebagai lebih penting, dan yang lebih banyak waktu instruksional dikhususkan, harus diberikan bobot yang lebih
besar dalam rencana evaluasi. Dalam tabel ilustrasi kami, misalnya, dua hasil keterampilan ditugaskan 50 persen
dari evaluasi keseluruhan (persen 25 per masing-masing) dan empat tujuan yang akan dievaluasi dengan tes kertas
dan pensil ditugaskan 50 persen lainnya '( 10 sampai 16 persen masing-masing).
Tabel spesifikasi sering hanya menyertakan tujuan yang dapat diukur dengan tes kertas dan pensil (lihat Tabel
6.2 dalam Bab 6), namun, ada beberapa keuntungan untuk termasuk semua tujuan instruksional dalam
tabel. Termasuk semua tujuan membuat jelas apa yang ada, dan apa yang tidak, yang diukur dengan tes kelas. Hal
ini menjelaskan peran penting dari pengujian dalam proses evaluasi total tetapi, pada saat yang sama, mencegah
penekanan yang berlebihan pada prosedur pengujian. Setiap teknik evaluasi dipandang dalam perspektif yang
benar.
Beberapa guru lebih memilih untuk memperluas tabel spesifikasi dengan memasukkan hasil pembelajaran yang
spesifik untuk setiap tujuan instruksional umum dan dengan daftar garis yang lebih rinci tentang isi kursus. Ini
adalah pendekatan yang diinginkan asalkan jumlah spesifik tidak menjadi tidak terkendali. Hal ini lebih layak di
mana tabel spesifikasi didasarkan pada unit instruksi (seperti dalam evaluasi formatif) daripada di mana tabel ini
didasarkan pada hasil yang diharapkan dari seluruh program (seperti dalam evaluasi sumatif).
MENGGUNAKAN DAFTAR SPESIFIKASI
Tipe lain dari rencana evaluasi adalah bahwa disediakan oleh grafik dua arah disebut tabel spesifikasi. Grafik
tersebut berhubungan tujuan instruksional dengan isi kursus dan menentukan penekanan yang akan diberikan
kepada masing-masing jenis hasil belajar. Dimana tabel adalah untuk melayani sebagai rencana evaluasi umum,
semua tujuan instruksional umum untuk unit atau kursus
BERKAITAN DENGAN ITEM TES KHUSUS BELAJAR HASIL
Tabel spesifikasi menunjukkan jumlah item tes yang akan dikhususkan untuk masing-masing tujuan instruksional
umum. Ini adalah langkah pertama dalam prosedur pengujian yang berkaitan dengan tujuan dan yang signifikan
karena memberikan beberapa
Teknik Evaluasi
Tujuan
dari pengamatan harus ditentukan di awal proses pembelajaran. Idealnya, perencanaan untuk evaluasi harus
terjadi pada waktu yang sama dengan rencana lain yang dibuat untuk kursus, ketika hal ini dilakukan, guru kadangkadang
dan
dalam
satu
rencana. Bagan berikut ini merupakan versi sederhana dari rencana untuk tujuan Mr Whiteside dalam penalaran
aritmatika di tingkat kelas empat:
Pengajaran Metode
Menyajikan siswa dengan berbagai masalah cerita yang mengandung fakta-fakta lebih dari yang diperlukan agar
siswa memperoleh latihan dalam mengidentifikasi masalah, dan memilih fakta yang relevan serta dalam
menghitung jawaban.
Murid menunjukkan kemampuan penalaran aritmatika ketika ia:
1.
2.
3.
4.
Termasuk tujuan, metode pengajaran, dan teknik evaluasi dalam satu rencana umum menyoroti keterkaitan
antara aspek ini mengajar di kelas dan meyakinkan bahwa perencanaan untuk evaluasi akan dilakukan pada awal
kursus. Dalam menggunakan prosedur ini, bagaimanapun, kita harus berhati-hati untuk tidak mencoba untuk
menghubungkan metode pengajaran terlalu dekat dengan tujuan instruksional. Salah satu metode (misalnya,
diskusi kelas) mungkin berhubungan dengan berbagai tujuan, seperti pengetahuan, pemahaman, keterampilan
komunikasi, dan penyesuaian sosial. Demikian pula, satu tujuan (misalnya, penghargaan) dapat menjadi hasil akhir
dari serangkaian pengalaman yang membutuhkan banyak metode pembelajaran. Dalam keterbatasan ini, rencana
seperti yang dikembangkan oleh Mr Whiteside dapat menambahkan arah umum untuk kedua pengajaran dan
proses evaluasi.
instruksi tercantum di bagian atas meja, dan semua bidang utama dari konten yang terdaftar di sisi meja. Sel-sel
dalam tabel yang digunakan untuk menunjukkan jumlah item tes harus siap untuk setiap hasil dari instruksi dan
untuk menggambarkan bagaimana hasil nontest akan dievaluasi. Sebuah versi sederhana dari tabel tersebut,
untuk unit cuaca dalam ilmu SMP, disajikan pada Tabel 3.1.
Ini akan dicatat dalam Tabel 3.1 bahwa dari lima puluh item dalam tes, dua belas akan mengukur "pengetahuan
tentang simbol dan istilah." Dua dari dua belas item akan peduli dengan "tekanan udara," empat dengan "angin,"
dua dengan "suhu," dua dengan "kelembaban dan curah hujan," dan dua dengan "awan." Angka-angka di kolom
lain yang harus dibaca dengan cara yang sama. Karena hasil keterampilan memerlukan evaluasi kinerja, kolom
tersebut berisi deskripsi singkat tentang prosedur evaluasi yang akan digunakan.
Penekanan relatif yang diberikan kepada masing-masing tujuan dan setiap area konten dalam tabel spesifikasi
harus, tentu saja, mencerminkan penekanan diberikan selama instruksi. Mereka hasil belajar yang menekankan
sebagai lebih penting, dan yang lebih banyak waktu instruksional dikhususkan, harus diberikan bobot yang lebih
besar dalam rencana evaluasi. Dalam tabel ilustrasi kami, misalnya, dua hasil keterampilan ditugaskan 50 persen
dari evaluasi keseluruhan (persen 25 per masing-masing) dan empat tujuan yang akan dievaluasi dengan tes kertas
dan pensil ditugaskan 50 persen lainnya '( 10 sampai 16 persen masing-masing).
Tabel spesifikasi sering hanya menyertakan tujuan yang dapat diukur dengan tes kertas dan pensil (lihat Tabel
6.2 dalam Bab 6), namun, ada beberapa keuntungan untuk termasuk semua tujuan instruksional dalam
tabel. Termasuk semua tujuan membuat jelas apa yang ada, dan apa yang tidak, yang diukur dengan tes kelas. Hal
ini menjelaskan peran penting dari pengujian dalam proses evaluasi total tetapi, pada saat yang sama, mencegah
penekanan yang berlebihan pada prosedur pengujian. Setiap teknik evaluasi dipandang dalam perspektif yang
benar.
Beberapa guru lebih memilih untuk memperluas tabel spesifikasi dengan memasukkan hasil pembelajaran yang
spesifik untuk setiap tujuan instruksional umum dan dengan daftar garis yang lebih rinci tentang isi kursus. Ini
adalah pendekatan yang diinginkan asalkan jumlah spesifik tidak menjadi tidak terkendali. Hal ini lebih layak di
mana tabel spesifikasi didasarkan pada unit instruksi (seperti dalam evaluasi formatif) daripada di mana tabel ini
didasarkan pada hasil yang diharapkan dari seluruh program (seperti dalam evaluasi sumatif).
MENGGUNAKAN DAFTAR SPESIFIKASI
Tipe lain dari rencana evaluasi adalah bahwa disediakan oleh grafik dua arah disebut tabel spesifikasi. Grafik
tersebut berhubungan tujuan instruksional dengan isi kursus dan menentukan penekanan yang akan diberikan
kepada masing-masing jenis hasil belajar. Dimana tabel adalah untuk melayani sebagai rencana evaluasi umum,
semua tujuan instruksional umum untuk unit atau kursus
BERKAITAN DENGAN ITEM TES KHUSUS BELAJAR HASIL
Tabel spesifikasi menunjukkan jumlah item tes yang akan dikhususkan untuk masing-masing tujuan instruksional
umum. Ini adalah langkah pertama dalam prosedur pengujian yang berkaitan dengan tujuan dan yang signifikan
karena memberikan beberapa
e
o
z
0
Si
o
(0
op
w J
-4
H
O
o
8-*
c
C
o
1a
CD
00
"1
W sering
bo
bo
s. S
fc
C> fc-
'5 RS
- o K 3
CL,
U
oH
oo
di
O
kami
jaminan bahwa setiap tujuan akan diwakili dalam tes sesuai dengan kepentingan relatifnya. Pertanyaan utama,
namun, dalam berhubungan prosedur pengujian untuk tujuan, adalah: Apakah tanggapan murid disebut ditetapkan
oleh item tes langsung relevan dengan perilaku ditentukan oleh hasil pembelajaran yang spesifik?
Klarifikasi Tanggapan Murid diharapkan
Kita dapat meningkatkan kepastian bahwa barang-barang kami uji menimbulkan perilaku murid yang relevan
dengan lebih memperjelas respon murid diharapkan untuk setiap hasil belajar tertentu. Hal ini dapat dilakukan di
salah satu cara berikut:
1.
2.
Menentukan kata kerja yang digunakan dalam hasil pembelajaran yang spesifik.
3.
11.
12.
Menambahkan tingkat ketiga kekhususan seperti ini mungkin berguna untuk memperjelas beberapa hasil
belajar. Tugas spesifik menggambarkan dengan tepat apa yang siswa akan lakukan untuk menunjukkan bahwa
mereka dapat mengidentifikasi kata benda. Perlu dicatat, bagaimanapun, bahwa hasil kami yang dimaksud adalah
masih identifikasi kata benda. Proses menggarisbawahi dan mengelilingi hanya perilaku kita bersedia untuk
digunakan
mengidentifikasi. Dengan
demikian,
tingkat
ketiga
menyediakan transisi antara hasil belajar tertentu dan item tes, tetapi perilaku tertentu tidak hasil pembelajaran di
kanan mereka sendiri (yaitu, Dalam contoh kita, kita tidak tertarik untuk mengajar siswa bagaimana
untuk menggarisbawahi dan mengepung, melainkan cara untuk mengidentifikasi. Kami menganggap mereka
sudah bisa melakukan yang pertama.) tingkat ketiga ini kekhususan menyoroti salah satu keuntungan
menggunakan tingkat tujuan, daripada daftar tugas tertentu, untuk menggambarkan hasil yang diharapkan dari
instruksi. Dengan
tingkat,
kita
cenderung
untuk
diharapkan
dari
instruksi
bo.
'Ei
I
2 E co
^ 8 S 43 i3 " o
i3 bio *
43
bo
15
GA
ft
-S
'bo'
'43-a
pergi S
CO
. AO -S BP
== ^ S4j
" co
O tj w
CD
- .2
3A
43
ft
2-
O
"O
M J3
-V CO
CO Q
C/J
. 3
. Eo
Z Q
bo
c
<I 3 c c
g co
CO
S
^
OA)
" 1 - 8 FEBRUARI *
CO CA
Apakah. &
> Bo
ts i> H -
.5
co c
CO
CO
D
1|
bp
43
bo *
^. S
-I! rS 3
| ^ 43
ft
.2 O
OO
^ JADI g
rt-i
2 s
34=
03 ft
P ^
bo
CO
o c
CO
ft
"Saya
co
Pergi
o
CO
JR
CO
CO fe
SP
las
3
C
CJ
ft
T3
CO T3
E '3
kira-kira
e
kira-kira
c^
* CO
43
*>
ft ft
.
<U
CO
! 13
<A
sa
-C
T3
V* 4 O
15
(3 CO
co 53
cE
ts>
Vi
CO
^1
EO o
3
S o .2
botj
CD
-ie
;; CD
3
"n - -
bo IB.
8e^-
=A
13.2?
4) rt
^ MC C
untuk |-e6
SEM ACAM
III
33
CO
"3
CO -g (Z) ft
g * "Jadi
-
43
i/oO
ft) 4)
-TL
Pi
-3
i J = <!
CO
=3
cj ^
^o
saya
o>
menjelaskan, setiap kata kerja tindakan yang digunakan dalam daftar hasil pembelajaran yang spesifik, seperti
digambarkan dalam Tabel 3.2. (Perhatikan Jenis Tanggapan dan Uji Sample Tugas.) Prosedur ini sangat berguna di
mana para guru di departemen, atau seluruh sekolah, yang mengembangkan tujuan instruksional untuk setiap
kursus dalam kurikulum. Menggambarkan jenis tanggapan yang terkait dengan setiap kata kerja tindakan
memberikan makna seragam dari satu set tujuan yang lain dan, pada saat yang sama, menghilangkan kebutuhan
untuk menambahkan tingkat ketiga kekhususan untuk setiap rangkaian tujuan. Termasuk contoh tugas-tugas
tertentu, seperti digambarkan dalam Tabel 3.2, juga membantu untuk menjelaskan arti dari setiap kata kerja
tindakan.
Dalam beberapa kasus, misalnya di mana item tes yang akan dibangun oleh orang lain, hal ini diinginkan untuk
menggambarkan setiap hasil belajar tertentu dengan satu atau lebih item uji model. Contoh-contoh yang disajikan
pada bagian berikut ini memberikan berbagai ilustrasi tentang bagaimana hal ini dapat dilakukan. Dalam
berkomunikasi niat instruksional Anda kepada orang lain, tidak ada yang dapat menyampaikan hasil yang
diinginkan sebagai item tes jelas sebagai ilustrasi. Ini mengasumsikan, tentu saja, bahwa setiap item sampel uji
secara langsung relevan dengan hasil belajar tertentu yang diwakilinya.
Pencocokan Uji Produk untuk Ditujukan Hasil
Mempersiapkan item tes yang secara langsung relevan dengan hasil belajar yang spesifik yang akan diukur
terutama soal pencocokan perilaku ditentukan oleh hasil yang diinginkan dan perilaku diukur dengan item
tes. Menyatakan hasil sespesifik mungkin dan mendefinisikan kata kerja secara lebih rinci keduanya berguna dalam
hal ini, namun proses ini masih menjadi bahan analisis dan penilaian. Jika hasil belajar tertentu panggilan
untuk memasok jawaban (misalnya, nama, mendefinisikan), item tes juga harus mensyaratkan bahwa jawabannya
akan diberikan (bukan dipilih). Jika hasil belajar tertentu panggilan untuk mengidentifikasi prosedur, item tes harus
peduli hanya dengan proses identifikasi (bukan dengan hasil yang lebih kompleks). Jika hasil belajar tertentu
panggilan untuk melakukan prosedur, item tes harus memerlukan kinerja yang sebenarnya (bukan deskripsi verbal
bagaimana melakukannya). Isu-isu seperti ini menyoroti perawatan yang diperlukan dalam menentukan apakah
ada kecocokan yang baik antara hasil be-haviorally dinyatakan dan respon yang diharapkan ke item tes.
Prosedur untuk membangun item tes akan dipertimbangkan dalam bab-bab selanjutnya. Di sini, kita hanya
berfokus pada pentingnya pencocokan setiap item tes, sedekat mungkin, dengan hasil belajar tertentu memang
ditujukan untuk mengukur. Contoh-contoh, dari berbagai daerah konten, menggambarkan pertandingan cukup baik
antara hasil yang diharapkan dan item tes. Dalam setiap contoh, perhatikan bagaimana hasil belajar yang spesifik
menggambarkan perilaku murid adalah untuk menunjukkan dan bagaimana soal tes menyajikan tugas yang
memanggil balik bahwa perilaku tertentu.
CONTOH
Spesifik Learning Outcome: Mendefinisikan istilah umum. (Matematika Dasar) Arah: Dalam satu atau dua kalimat,
mendefinisikan masing-masing dari kata-kata berikut.
1.
2.
Bunga
3.
Dividen
4.
Jaminan
5.
Keuntungan
Premi
Spesifik Belajar Hasil: Mengidentifikasi prosedur untuk mengkonversi dari satu ukuran yang lain. (Matematika
Dasar)
1.
Luas karpet diberikan dalam meter persegi. Bagaimana seharusnya Anda menentukan
jumlah kaki persegi?
Sebuah Kalikan dengan 3
(B)
Kalikan dengan 9 C
Jumlah susu minuman keluarga dalam satu bulan dinyatakan dalam liter. Bagaimana
Anda harus mengubahnya ke galon?
A Kalikan dengan 4 B Kalikan dengan 8 C Divide oleh 4
Divide oleh 8
3.
Ruang udara di ruangan yang dinyatakan dalam kaki kubik. Bagaimana seharusnya Anda
mengubahnya ke meter kubik?
Sebuah Kalikan dengan 9 B Kalikan dengan 27 C Bagilah
dengan 9 Bagilah dengan 27
Spesifik Learning Outcome: Membedakan antara nilai-nilai relatif dinyatakan dalam fraksi. (Matematika Dasar)
1.
Manakah dari pecahan berikut ini lebih kecil dari satu setengah?
2.
3.
Manakah dari fraksi berikut memiliki nilai yang sama dengan seperlima?
Arah: Baca setiap pernyataan berikut dengan seksama. Jika Anda pikir pernyataan itu adalah fakta, lingkaran
"F." Jika Anda pikir pernyataan itu adalah pendapat, lingkaran "O." (F) O 1. Ceorge Washington adalah Presiden
pertama Amerika Serikat.
F 2. Abraham Lincoln adalah presiden terbesar kami.
(?) O 3. Franklin Roosevelt adalah satu-satunya Presiden yang terpilih ke kantor itu tiga kali.
(? J) O 4. Alaska adalah negara terbesar di Amerika Serikat. . F 5 Hawaii adalah negara bagian yang paling
indah di Amerika Serikat Hasil Pembelajaran Khusus:. Mengidentifikasi penggunaan umum dari instrumen
cuaca. (Dasar Ilmu)
1.
(B)
Anemometer C
Altimeter D Radar
2.
Yang salah satu instrumen berikut ini digunakan untuk menentukan jumlah
kelembaban di udara?
A Altimeter B Barometer Hygrometer D Radiosonde
Dalam
bisa
contoh
melihat
pertama,
"sehingga"
bagian
ya
kedua
"dilingkari.
setiap
pernyataan
Ya
(ada)
1.
dari telur padang pasir.
dari
berikut
Beberapa
ular
Dalam
bisa
dan
pernyataan
contoh
berjalan"
menjawab
gurun
kedua,
sehingga
dengan
bagian
kedua
"tidak"
cara
dari
dilingkari.
yang
panas
sama.
di
sekte.
Tidak ada 3. Beberapa tanaman tidak perlu sinar matahari karena mereka mendapatkan makanan mereka
cahaya
Ya (ada) 4. Air di laut menguap karena mengandung garam. (YEG) No 5. Ikan bisa mendapatkan oksigen
dari karena mereka memiliki insang, air
Spesifik Belajar Hasil: Mengidentifikasi alasan untuk tindakan atau peristiwa. (Biologi) 1. Yang salah satu dari berikut
ini yang terbaik menjelaskan mengapa ganggang hijau mengeluarkan gelembung oksigen pada cerah, hari yang
cerah? Sebuah Transpirasi
B Flasmolysis Fotosintesis D Osmosis
2. Yang salah satu yang terbaik berikut ini menjelaskan mengapa cetakan roti dapat tumbuh di ruangan gelap?
(A) Beberapa tanaman tidak menghasilkan makanan mereka sendiri. B Fotosintesis dapat berlangsung dalam
gelap. C Klorofil membantu pertumbuhan tanaman dalam kegelapan. D Roti cetakan mengambil karbon dioksida
dan melepaskan oksigen di kedua 'gelap dan terang. Hasil Pembelajaran Khusus: Mengidentifikasi relevansi
argumen. (Ilmu Sosial) Arah: Item di bagian tes harus didasarkan pada resolusi berikut:
MEMUTUSKAN: . Usia suara yang sah di Amerika Serikat harus diturunkan sampai delapan belas Beberapa
pernyataan berikut argumen untuk resolusi, beberapa argumen terhadap hal itu, dan ada pula yang tidak atau
untuk menentang resolusi itu.Bacalah setiap pernyataan berikut dan lingkaran: F jika argumen untuk resolusi. A jika
argumen terhadap resolusi. N jika tidak untuk atau menentang resolusi itu. (F) AN 1. Kebanyakan orang secara fisik,
emosional, dan intelektual dewasa
pada usia delapan belas tahun.
FA
(K)
Pidato
Spesifik Belajar Hasil: Mempertahankan kontak mata yang baik dengan penonton. Penilaian Skala Item:
Seberapa efektif adalah pembicara dalam mempertahankan kontak mata dengan penonton?
12345
Miskin
Adil
Jelas, koheren
organisasi
organisasi
organisasi
Kerja Kelompok
Spesifik Learning Outcome: Berkontribusi ide-ide bermanfaat untuk diskusi kelompok. Penilaian Skala Item:
Seberapa sering murid menyumbangkan ide-ide bermanfaat untuk diskusi kelompok?
12345
murid terhadap tujuan yang lebih kompleks dari program lokal. Dalam kedua kasus, penting untuk memeriksa tes
custom-made dengan hati-hati, untuk memastikan bahwa setiap item, dan tes secara keseluruhan, memuaskan
mengukur perilaku murid ditentukan dalam tujuan instruksional.
EVALUASI SKALA LUAS
Tema utama yang berjalan di seluruh buku ini adalah bahwa evaluasi merupakan bagian integral dari proses
belajar-mengajar dan bahwa hal itu melibatkan dua langkah dasar: (1) mengidentifikasi dan menentukan tujuan
pengajaran, dan (2)membangun atau memilih instrumen evaluasi yang terbaik menilai tujuan tersebut. Dengan
demikian, penekanan utama kami adalah pada sejauh mana ditentukan hasil belajar untuk tertentu kursus atau
kurikulum telah dicapai. Dalam sebuah artikel tentang evaluasi dan program perbaikan, Cronbach telah
menunjukkan bahwa ada saat-saat itu mungkin diinginkan untuk mengevaluasi hasil melampaui orang-orang yang
telah ditetapkan untuk program tertentu atau kurikulum. Catatan ini komentar provokatif. 1
Dalam evaluasi saja, kita tidak perlu banyak khawatir tentang membuat alat ukur sesuai dengan
kurikulum. Namun mengejutkan deklarasi ini mungkin tampak, dan bagaimanapun bertentangan dengan
prinsip-prinsip evaluasi untuk keperluan lain, ini harus menjadi posisi kita jika kita ingin tahu perubahan apa
saja yang memproduksi dalam pupil. Evaluasi yang ideal akan mencakup langkah-langkah dari semua jenis
kemampuan yang cukup mungkin diinginkan di daerah yang bersangkutan, bukan hanya hasil yang dipilih
yang ini kurikulum mengarahkan perhatian besar. Jika Anda hanya ingin tahu seberapa baik kurikulum adalah
mencapai nya tujuan, Anda cocok tes dengan kurikulum; tetapi jika Anda ingin mengetahui seberapa baik
kurikulum adalah melayani kepentingan nasional, Anda mengukur semua hasil yang mungkin layak
diperjuangkan. Salah satu mata pelajaran matematika baru mungkin mengingkari setiap upaya untuk
mengajar trigonometri numerik, dan memang, mungkin membuang pekerjaan hampir semua komputasi. Hal
ini masih sangat masuk akal untuk bertanya seberapa baik lulusan kursus dapat menghitung dan dapat
memecahkan segitiga siku-siku. Bahkan jika pengembang saja pergi sejauh untuk bersaing bahwa
keterampilan komputasi ada tujuan yang tepat dari instruksi sekunder, mereka akan menghadapi pendidik dan
orang awam yang tidak berbagi pandangan mereka. Jika dapat menunjukkan bahwa siswa yang datang melalui
program baru yang cukup mahir dalam perhitungan meskipun kurangnya pengajaran langsung, yang raguragu akan diyakinkan. Jika tidak, bukti membuat jelas berapa banyak yang dikorbankan.
Meskipun komentar ini langsung berkaitan dengan evaluasi skala besar proyek-proyek perbaikan kurikulum, ide
dasar umumnya
i LI Cronbach, "Improvement Course melalui Evaluasi," Teachers College Rekam 64, 680, 1963 [Dicetak ulang di NE Gronlund
(ed.),. Bacaan dalam Pengukuran dan Evaluasi . (New York: Macmillan, 1968)] yang berlaku. Untuk beberapa tujuan,
mungkin tepat untuk menentukan kemajuan murid terhadap tujuan selain yang ditentukan untuk kursus atau
kurikulum. Seorang guru bahasa Inggris, misalnya, mungkin tidak melakukan pengajaran langsung dari tata bahasa,
tapi masih tertarik dalam mengukur kemampuan murid dalam tata bahasa. Demikian pula, seorang guru sains
mungkin tidak mempertimbangkan ejaan suatu hasil yang diinginkan ilmu pengetahuan, tapi masih tertarik dalam
menentukan seberapa baik murid bisa mengeja istilah ilmiah yang lebih kompleks. Itu selalu yang sah untuk
bertanya berapa banyak belajar insidental berlangsung, atau sebagai Cronbach telah menunjukkan, berapa banyak
yang dikorbankan di daerah-daerah tidak menerima pengajaran langsung.
Ketika mengevaluasi pada skala yang lebih luas, proses yang berkaitan dengan prosedur evaluasi hasil belajar
pada dasarnya sama. Namun, dalam kasus ini, tentu saja, diperlukan untuk menghubungkan instrumen evaluasi
secara langsung mungkin untuk semua dari hasil yang akan diukur; bukan hanya orang-orang yang telah
diidentifikasi sebagai hasil yang diharapkan dari instruksi.
RINGKASAN
Tujuan instruksional akan berfungsi paling efektif dalam evaluasi kelas jika upaya sadar dibuat untuk
menghubungkan prosedur evaluasi terhadap hasil pembelajaran yang spesifik dicakup oleh masing-masing
tujuan. Upaya ini dapat difasilitasi oleh (1) rencana umum evaluasi, (2) tabel spesifikasi, dan (3) pilihan teknik
evaluasi yang mengukur setiap hasil belajar paling dekat.
Sebuah rencana evaluasi umum terdiri dari daftar semua tujuan instruksional umum dan hasil pembelajaran
yang spesifik dengan indikasi jenis teknik evaluasi yang akan digunakan untuk setiap hasil yang diinginkan. Untuk
tujuan pengajaran, metode yang akan digunakan dalam mencapai tujuan juga dapat dimasukkan. Pengembangan
rencana evaluasi umum menjamin bahwa ketentuan telah dibuat untuk mengevaluasi semua tujuan instruksional
dan peringatan guru untuk jenis-jenis informasi evaluatif yang harus dikumpulkan secara berkala selama semester.
Sebuah tabel spesifikasi ini sangat berguna dalam perencanaan untuk evaluasi kelas. Ini adalah bagan dua arah
yang menghubungkan tujuan instruksional tentu saja dengan isi subject-matter yang digunakan untuk mencapai
tujuan. Ini panduan guru dalam membangun tes dan instrumen evaluasi lain yang mengukur hasil yang diharapkan
dari instruksi secara seimbang.
Langkah yang paling penting dalam berhubungan prosedur evaluasi untuk tujuan instruksional adalah dalam
pemilihan, atau konstruksi, teknik evaluasi khusus untuk digunakan. Dalam kasus kedua item tes dan instrumen
evaluasi nontest, upaya terpadu harus dilakukan untuk mendapatkan sampel perilaku murid yang mirip dengan
perilaku yang dijelaskan dalam hasil pembelajaran yang spesifik. Pencocokan perilaku tes untuk hasil yang
dimaksudkan dapat ditingkatkan dengan lebih mendefinisikan kata kerja yang digunakan dalam hasil pembelajaran
yang spesifik dan dengan mengambil perawatan khusus ketika menilai korespondensi antara respon tes diharapkan
dan hasilnya perilaku menyatakan itu dirancang untuk mengukur.
Dalam beberapa kasus, kita mungkin akan tertarik dalam menentukan sejauh mana program atau kurikulum
yang memodifikasi perilaku murid di daerah selain yang ke arah mana pengajaran diarahkan. Hal ini memerlukan
prosedur evaluasi yang melampaui hasil yang diharapkan dari instruksi, tetapi prinsip dasar yang berkaitan
instrumen evaluasi sedekat mungkin dengan hasil yang akan diukur masih relevan.
BELAJAR LATIHAN
1.
Apa keuntungan dan keterbatasan termasuk metode pengajaran dalam rencana evaluasi umum (sebagai
Mr Whiteside lakukan)?
2.
Apa keuntungan dari termasuk semua tujuan instruksional umum dalam tabel spesifikasi, bukan hanya
mereka yang dapat diukur dengan tes kertas dan pensil? Apakah ada kerugian?
3.
Jelaskan faktor yang harus dipertimbangkan ketika menentukan berapa banyak item tes untuk
mengabdikan untuk setiap tujuan instruksional, dan untuk setiap bidang konten, selama persiapan tabel spesifikasi.
4.
Langkah-langkah apa yang dapat diambil untuk lebih memastikan bahwa item dalam tes kelas akan
menimbulkan tanggapan yang sesuai? Bisakah kita pernah yakin bahwa kami memiliki pertandingan yang
sempurna antara tes barang dan hasil dimaksudkan?
5.
Pilih sebuah bab dalam buku teks di daerah mengajar Anda dan lakukan hal berikut:
a.
Daftar bidang utama dari konten yang dibahas dalam bab ini.
b.
c. Buatlah sebuah tabel spesifikasi untuk uji dua puluh item pada materi
dalam bab ini (termasuk metode evaluasi lainnya, jika sesuai).
6.
Apa keuntungan relatif dari menggunakan tes custom-made diterbitkan bukan tes standar untuk mengukur
7.
Bagaimana mungkin sebuah tabel spesifikasi digunakan dalam memilih tes standar?
8.
Di daerah mengajar Anda sendiri, mengutip contoh di mana Anda mungkin ingin mengukur hasil belajar di
9.
Apa jenis metode pengujian atau evaluasi akan menjadi yang terbaik untuk masing-masing hasil sebagai
berikut? Mengapa?
a.
b.
c.
d.
e.
f.
10.
jenis
masalah
dapat
ditanggulangi
di
daerah
mengajar
Anda
tidak
dapat
menggunakan
tes
kertas
dan
pensil
apapun? Apa
cedures yang akan Anda gunakan? Bagaimana Anda akan berhubungan prosedur
hasil belajar dimaksudkan?
jika
evaluasi
ini untuk
Anda
proAnda
BAB
Keabsahan
Dalam memilih atau membangun instrumen evaluasi pertanyaan yang paling penting adalah: Sejauh mana
hasil akan melayani penggunaan tertentu yang mereka dimaksudkan? Ini adalah esensi dari validitas.
Banyak aspek perilaku murid dievaluasi di sekolah, dan hasilnya diharapkan untuk melayani berbagai
penggunaan. Misalnya, prestasi dapat dievaluasi untuk mendiagnosis kesulitan belajar atau untuk menentukan
kemajuan menuju tujuan instruksional; bakat skolastik dapat diukur untuk memprediksi keberhasilan dalam
kegiatan pembelajaran masa depan atau untuk murid kelompok untuk tujuan instruksional; dan penilaian
pengembangan pribadi-sosial dapat diperoleh dalam rangka untuk lebih memahami siswa atau untuk layar mereka
untuk rujukan ke seorang konselor bimbingan. Terlepas dari area perilaku sedang dievaluasi, bagaimanapun, atau
penggunaan yang akan dibuat dari hasil, semua dari berbagai prosedur yang digunakan dalam program evaluasi
harus memiliki karakteristik umum tertentu. Yang paling penting dari karakteristik ini dapat diklasifikasikan di
bawah judul validitas, reliabilitas, dan kegunaan.
Validitas mengacu pada sejauh mana hasil dari prosedur evaluasi melayani penggunaan tertentu yang mereka
dimaksudkan. Jika hasilnya digunakan untuk menggambarkan prestasi murid, kita harus seperti mereka untuk
mewakili pencapaian tertentu yang kami ingin menjelaskan, untuk mewakili semua aspek pencapaian kita ingin
menjelaskan, dan untuk mewakili apa-apa lagi. Keinginan kita dalam hal ini serupa dengan pengacara pembela di
ruang sidang yang menginginkan kebenaran, seluruh kebenaran, dan apa-apa selain kebenaran. Jika hasilnya
digunakan untuk memprediksi keberhasilan murid dalam beberapa aktivitas masa depan, kita harus seperti mereka
untuk memberikan akurat perkiraan kesuksesan masa depan mungkin. Pada dasarnya, kemudian, validitas selalu
peduli dengan penggunaan khusus t0 terbuat dari hasil evaluasi dan dengan tingkat kesehatan interpretasi yang
diusulkan kami.
Keandalan mengacu pada konsistensi hasil evaluasi. Jika kita memperoleh skor sangat mirip ketika tes yang
sama diberikan kepada kelompok yang sama pada dua kesempatan yang berbeda, kita dapat menyimpulkan bahwa
hasil kami memiliki tingkat kehandalan yang tinggi dari satu kesempatan ke yang lain. Demikian pula, jika guru
yang berbeda secara independen menilai murid yang sama pada instrumen yang sama dan memperoleh penilaian
setara, kita dapat menyimpulkan bahwa hasil memiliki tingkat kehandalan yang tinggi dari satu penilai yang
lain. Seperti dengan validitas, reliabilitas erat terkait dengan jenis interpretasi yang akan dibuat. Untuk beberapa
penggunaan, kita mungkin tertarik untuk menanyakan bagaimana diandalkan hasil evaluasi kami selama periode
waktu tertentu, dan untuk orang lain, bagaimana mereka dapat diandalkan dibandingkan dengan sampel dari
perilaku yang sama. Dalam semua kasus di mana keandalan sedang ditentukan, bagaimanapun, kita prihatin
dengan konsistensi dari hasil, bukan dengan sejauh mana mereka melayani penggunaan khusus dalam
pertimbangan.
Meskipun keandalan adalah kualitas yang sangat diinginkan, perlu dicatat bahwa kehandalan tidak memberikan
jaminan bahwa hasil evaluasi akan menghasilkan informasi yang diinginkan. Seperti saksi memberikan kesaksian di
ruang sidang trial "fakta bahwa ia konsisten menceritakan kisah yang sama tidak menjamin bahwa ia
mengatakan yang sebenarnya. Kebenaran pernyataannya dapat ditentukan hanya dengan membandingkan mereka
dengan beberapa bukti lain. Demikian pula, dengan hasil evaluasi konsistensi adalah kualitas penting tetapi hanya
jika disertai dengan bukti validitas, dan yang harus ditentukan secara independen. Sedikit yang dicapai jika hasil
evaluasi secara konsisten memberikan informasi yang salah. Singkatnya, kehandalan adalah penting, namun bukan
suatu kondisi yang cukup untuk validitas.
Selain memberikan hasil yang memiliki tingkat yang memuaskan validitas dan reliabilitas, prosedur evaluasi
harus memenuhi persyaratan praktis tertentu. Ini harus ekonomis dari sudut pandang waktu dan uang, itu harus
mudah dikelola dan mencetak gol, dan harus memberikan hasil yang dapat secara akurat ditafsirkan dan
diterapkan oleh personel sekolah yang tersedia. Aspek-aspek praktis dari prosedur evaluasi semua dapat
dimasukkan di bawah judul kegunaan. Istilah kegunaan,maka, hanya mengacu pada kepraktisan prosedur dan
menyiratkan apa-apa tentang kualitas lain yang hadir.
Dalam bab ini kita akan membahas validitas hasil evaluasi, dan dalam bab berikut kita akan mengalihkan
perhatian kita untuk keandalan dan kegunaan.
SIFAT VALIDITAS
Bila menggunakan istilah validitas, dalam kaitannya dengan pengujian dan evaluasi, ada sejumlah peringatan yang
harus diingat.
1.
Validitas berkaitan dengan hasil tes, atau instrumen evaluasi, dan bukan untuk instrumen itu sendiri. Kita
kadang-kadang berbicara tentang validitas tes demi kenyamanan, tetapi lebih tepat untuk berbicara tentang
keabsahan hasil pengujian, atau lebih khusus, validitas interpretasi yang akan dibuat dari hasil.
2.
Validitas adalah masalah derajat. Itu tidak ada secara all-or-none. Akibatnya, kita harus menghindari
memikirkan hasil evaluasi yang valid atau tidak valid. Validitas paling dipertimbangkan dalam hal kategori yang
menentukan derajat, seperti validitas yang tinggi, validitas moderat, dan validitas rendah.
3.
Validitas selalu spesifik untuk beberapa penggunaan tertentu. Ini tidak boleh dianggap sebagai kualitas
umum. Sebagai contoh, hasil tes aritmatika mungkin memiliki tingkat tinggi validitas untuk menunjukkan
keterampilan komputasi, tingkat rendah untuk menunjukkan validitas penalaran ilmu hitung, tingkat moderat
validitas untuk memprediksi keberhasilan dalam mata pelajaran matematika di masa depan, dan tidak ada validitas
untuk memprediksi keberhasilan dalam seni atau musik. Dengan demikian, ketika menilai atau menggambarkan
validitas, maka perlu untuk mempertimbangkan penggunaan harus dibuat dari hasil. Hasil evaluasi tidak pernah
sah-sah saja; mereka memiliki tingkat yang berbeda dari validitas untuk setiap interpretasi tertentu yang akan
dibuat.
JENIS VALIDITAS
Tiga tipe dasar validitas telah diidentifikasi dan sekarang umum digunakan dalam pengukuran pendidikan dan
psikologis. 1 Mereka adalah: konten validitas, -kriteria yang terkait validitas, dan membangun validitas. Makna
umum jenis validitas ditunjukkan dalam Tabel 4.1. Setiap jenis akan dijelaskan lebih lengkap sebagai hasil
bab. Demi kejelasan, diskusi akan terbatas pada validitas yang berkaitan dengan prosedur pengujian. Harus diakui,
bagaimanapun, bahwa ketiga jenis validitas juga berlaku untuk semua berbagai jenis alat evaluasi yang digunakan
dalam sekolah.
Konten Validitas
1
American Psychological Association, Standar Pendidikan dan Tes Psikologi (Washington, DC: APA, 1974).
Isi kursus atau kurikulum dapat didefinisikan secara luas untuk mencakup baik isi pelajaran-materi dan tujuan
instruksional. Yang pertama adalah berkaitan dengan topik, atau area subyek, yang akan dibahas, dan yang
terakhir dengan perubahan perilaku dicari dalam murid. Kedua aspek konten menjadi perhatian dalam menentukan
validitas isi. Kita harus seperti setiap tes prestasi kita membangun, atau pilih, untuk memberikan hasil yang
mewakili topik dan perilaku kita ingin mengukur. Ini adalah esensi dari validitas isi. Lebih formal, validitas isi dapat
didefinisikan sebagai sejauh mana tes mengukur sampel yang representatif
TABEL 4.1
Makna
TIGA JENIS VALIDITAS
Prosedur
Bandingkan isi tes untuk alam semesta konten dan perilaku yang akan diukur
Bandingkan nilai tes dengan ukuran lain kinerja yang diperoleh di kemudian hari (untuk prediksi) atau dengan
ukuran lain kinerja yang diperoleh secara bersamaan (untuk memperkirakan status sekarang)
Eksperimental menentukan faktor-faktor apa nilai pengaruh pada tes
jumlah waktu yang dihabiskan untuk masing-masing daerah selama instruksi, filosofi sekolah, pendapat para
ahli di daerah, dan kriteria yang sama.
3.
Sebuah tabel spesifikasi, seperti yang disajikan dalam Bab 3, dibangun dari daftar tertimbang topik subjek-
materi dan diharapkan perubahan perilaku. Tabel ini, maka, menentukan penekanan relatif tes harus memberikan
kepada setiap topik pokok bahasan dan setiap jenis perubahan perilaku.
4.
Tes prestasi dibangun, atau dipilih, sesuai dengan tabel spesifikasi. Semakin dekat tes sesuai dengan
spesifikasi yang ditunjukkan dalam tabel, semakin besar kemungkinan bahwa tanggapan siswa 'untuk menguji akan
memiliki tingkat tinggi validitas isi.
Sebuah tabel spesifikasi, dalam bentuk yang sangat sederhana, disajikan pada Tabel 4.2 untuk menggambarkan
bagaimana meja tersebut digunakan untuk memeriksa validitas isi. Persentase dalam tabel menunjukkan tingkat
relatif penekanan setiap mata pelajaran-materi dan setiap jenis perubahan perilaku harus diberikan dalam
ujian. Jadi, jika tes ini adalah untuk mengukur sampel yang representatif dari isi subject-matter, 15 persen dari item
tes harus peduli dengan tanaman, 15 persen dengan hewan, 30 persen dengan cuaca, 15 persen
TABEL 4.2
TABEL YANG MENUNJUKKAN PENEKANAN RELATIF UNTUK CIVEN KE BERBAGAI DAERAH SUBYEK DAN KEMUNGKINAN PERILAKU
UNTUK TES DALAM ILMU SEKOLAH DASAR
Memahami
Konsep
Berlaku
Konsep
Total
Tanaman
10
15
Hewan
10
15
Cuaca
15
15
30
Bumi
10
15
Langit
10
15
25
Total
50
50
100
dengan bumi, dan 25 persen dengan langit. Jika tes ini adalah untuk mengukur sampel yang representatif
dari perubahan perilaku, 50 persen dari barang-barang yang harus mengukur "pemahaman konsep," dan 50 persen
harus mengukur "penerapan konsep." Ini, tentu saja, menyiratkan bahwa penekanan khusus pada "pemahaman"
dan "aplikasi" untuk masing-masing mata pelajaran-materi yang akan mengikuti ditunjukkan dengan persentase di
tabel spesifikasi. Misalnya, 10 persen dari item tes yang bersangkutan dengan tanaman harus mengukur
"pemahaman konsep," dan 5 persen dari item tes harus mengukur "penerapan konsep."
Perlu dicatat bahwa prosedur ini hanya memberikan cek kasar
pada validitas isi. Analisis tersebut mengungkapkan jelas relevansi dari item tes untuk bidang subjek-materi dan
perubahan perilaku yang akan diukur. Validitas isi prihatin dengan sejauh mana item tes sebenarnya menimbulkan
tanggapan diwakili dalam tabel spesifikasi. Item tes mungkin muncul untuk mengukur "pemahaman" tapi tidak
berfungsi sebagaimana dimaksud karena cacat pada item, arah jelas, kosakata yang tidak pantas, atau kondisi
pengujian tidak terkontrol.Dengan demikian, validitas isi tergantung pada sejumlah faktor selain relevansi nyata
dari item tes. Sebagian besar dari apa yang tertulis dalam buku ini mengenai konstruksi dan seleksi tes prestasi
diarahkan meningkatkan validitas isi dari hasil yang diperoleh.
Meskipun pembahasan kita tentang validitas isi telah terbatas pada pengujian prestasi, validitas isi juga dari
beberapa kekhawatiran masuk pengukuran bakat, minat, sikap, dan penyesuaian pribadi-sosial. Sebagai contoh,
jika kita memilih inventarisasi bunga kita harus seperti itu untuk menutupi aspek-aspek kepentingan dengan yang
kita prihatin. Demikian pula, skala sikap harus mencakup topik-topik sikap yang sesuai dengan tujuan kita ingin
mengukur. Prosedur di sini pada dasarnya sama seperti yang di tes prestasi. Ini adalah masalah menganalisis bahan
uji dan hasil yang akan diukur dan menilai tingkat korespondensi antara mereka.
-Kriteria terkait Validitas
Setiap kali nilai tes yang akan digunakan untuk memprediksi kinerja masa depan atau untuk memperkirakan
kinerja saat ini pada beberapa ukuran dihargai selain tes itu sendiri, kita prihatin dengan validitas-kriteria
terkait. Misalnya, membaca kesiapan skor tes dapat digunakan untuk memprediksi murid 'prestasi masa depan
dalam membaca, atau tes keterampilan kamus dapat digunakan untuk memperkirakan murid keterampilan saat ini
dalam penggunaan aktual dari kamus (sebagaimana ditentukan oleh pengamatan). Dalam contoh pertama, kami
tertarik prediksi dan dengan demikian dalam hubungan antara dua ukuran selama jangka waktu. Jenis validitas
disebut prediktif validitas. Pada contoh kedua, kami tertarik untuk memperkirakan status sekarang dan dengan
demikian dalam hubungan antara dua ukuran yang diperoleh secara bersamaan. Sebuah hubungan yang tinggi
dalam hal ini akan menunjukkan bahwa tes keterampilan kamus adalah indikator yang baik dari kemampuan
sebenarnya dalam penggunaan kamus. Prosedur ini untuk menentukan validitas disebut bersamaan validitas. Pada
uji baru Standar,
sebutan validitas prediktif dan validitas konkuren telah dimasukkan di bawah category lebih
umum " -kriteria yang terkait validitas. Hal ini tampaknya menjadi pengaturan yang diinginkan karena metode
untuk menentukan dan mengungkapkan validitas adalah sama dalam kedua kasus. Perbedaan utama terletak pada
jangka waktu antara dua ukuran yang diperoleh.
Validitas-kriteria yang terkait dapat didefinisikan sebagai sejauh mana hasil tes terkait dengan beberapa ukuran
dihargai lain dari kinerja. Seperti disebutkan sebelumnya, ukuran kedua kinerja dapat diperoleh di beberapa
tanggal masa depan (ketika kita tertarik dalam memprediksi kinerja masa depan) , atau bersamaan (ketika kita
tertarik dalam memperkirakan kinerja sekarang). Pertama mari kita memeriksa penggunaan validitas-kriteria
terkait dari sudut pandang memprediksi keberhasilan dalam beberapa aktivitas masa depan. Kemudian kita akan
kembali ke penggunaan kedua.
Memprediksi Kinerja Masa Depan. Misalkan bahwa Mr Young, seorang guru SMP, ingin menentukan seberapa
baik nilai dari tes bakat skolastik tertentu memprediksi keberhasilan dalam kelas tujuh kelas aritmatika nya. Karena
tes bakat skolastik diberikan kepada semua siswa ketika mereka masuk SMP, nilai ini sudah tersedia untuk Mr
Young. Masalah terbesarnya adalah memutuskan pada kriteria sukses prestasi aritmatika. Karena kurangnya kriteria
yang lebih baik, Pak Young memutuskan untuk menggunakan pemeriksaan departemen komprehensif yang
diberikan kepada berbagai bagian aritmatika kelas tujuh pada akhir tahun ajaran. Sekarang mungkin untuk Mr
Young untuk menentukan seberapa baik bakat skor tes skolastik memprediksi kesuksesan di kelas aritmatika
dengan membandingkan nilai tes skolastik bakat murid dengan nilai mereka pada ujian departemen. Apakah
mereka siswa yang memiliki skor tes bakat skolastik yang tinggi juga cenderung memiliki skor tinggi pada
pemeriksaan departemen? Apakah mereka yang memiliki skor tes skolastik bakat rendah juga cenderung memiliki
skor rendah pada pemeriksaan departemen? Jika hal ini terjadi, Mr Young cenderung setuju bahwa skolastik skor tes
bakat cenderung akurat dalam memprediksi prestasi di kelas aritmatika ini. Singkatnya, ia mengakui bahwa hasil
tes memiliki validitas-kriteria terkait.
Dalam ilustrasi kami, Pak Young hanya diperiksa bakat nilai tes skolastik dan skor tes prestasi untuk
menentukan kesepakatan di antara mereka. Meskipun ini mungkin menjadi langkah awal yang diinginkan, itu jarang
cukup untuk menunjukkan validitas kriteria terkait. Prosedur yang biasa adalah berkorelasi statistik dua set nilai
dan melaporkan derajat hubungan antara mereka dengan menggunakan koefisien korelasi. -ini memungkinkan
validitas yang akan disajikan dalam hal yang tepat dan universal dipahami. Mereka, tentu saja, "universal
dipahami" hanya oleh mereka yang memahami dan dapat menginterpretasikan koefisien korelasi. Hal ini akan
menimbulkan masalah yang besar, namun, karena makna koefisien korelasi dapat dengan mudah ditangkap oleh
orang-orang yang keterampilan komputasi berlangsung tidak lebih dari itu aritmatika sederhana.
Peringkat-Perbedaan Korelasi. Untuk memperjelas perhitungan dan interpretasi koefisien korelasi, mari kita
mempertimbangkan nilai yang tepat murid Mr Young diterima pada kedua tes bakat skolastik dan pemeriksaan
departemen dalam aritmatika. Informasi ini disediakan dalam dua kolom pertama dari Tabel 4.3. Dengan
memeriksa dua kolom skor, sebagai Mr Muda lakukan, adalah mungkin untuk dicatat bahwa nilai yang tinggi pada
Kolom 1 cenderung untuk pergi
pergeseran dalam urutan peringkat dari satu tes ke tes lain. Masalah kita sekarang isa "Bagaimana kita bisa
mengekspresikan derajat hubungan antara dua set peringkat dalam hal yang berarti? Di sinilah koefisien korelasi
menjadi berguna.
Peringkat-perbedaan korelasi hanyalah sebuah metode untuk mengungkapkan derajat hubungan antara dua set
peringkat. Langkah-langkah dalam menentukan koefisien korelasi rank-perbedaan disajikan di buku komputasi
berikut. 2 Pak Data Young, pada Tabel 4.3, yang digunakan untuk menggambarkan
Tangga
KOMPUTASI-GUIDE: RANK-PERBEDAAN KORELASI
Kolom 1 dan 2 Kolom 3 dan 4
Kolom 5
Kolom 6
Bawah Kolom 6 6
X 532
P = l-
(rho) = 1
20 (20 2 - 1) 3192
=17980 1-0,40 .60
P
dengan nilai yang tinggi pada Kolom 2. Perbandingan ini sulit untuk membuat, namun, karena ukuran dari nilai tes
dalam dua kolom yang berbeda.
Kesepakatan dua set nilai dapat lebih mudah dilakukan jika nilai tes dikonversi ke jajaran. Hal ini telah dilakukan
dalam Kolom 3 dan 4 dari Tabel 4.3. Perhatikan bahwa murid yang pertama pada tes bakat peringkat ketiga pada
tes aritmatika; murid yang kedua pada tes bakat peringkat keempat pada tes aritmatika; murid yang ketiga pada
tes bakat peringkat keenam pada tes aritmatika; dan seterusnya. Membandingkan urutan peringkat dari murid di
dua tes, seperti yang ditunjukkan dalam Kolom 3 dan 4 dari Tabel 4.3, memberi kita gambaran yang cukup baik dari
hubungan antara dua set nilai. Dari pemeriksaan ini kita tahu bahwa murid yang memiliki kedudukan tinggi pada
tes bakat juga memiliki kedudukan yang tinggi pada tes aritmatika, dan murid yang memiliki kedudukan rendah
pada tes bakat juga memiliki kedudukan yang rendah pada tes aritmatika. Pemeriksaan kami Kolom 3 dan 4 juga
menunjukkan kepada kita, bagaimanapun, bahwa hubungan antara jajaran murid pada dua tes tidak
sempurna. Ada beberapa prosedur. Ini akan dicatat bahwa surat rho Yunani ( P ) digunakan untuk mengidentifikasi
koefisien korelasi rank-order. Dari perhitungan kami untuk data Mr Young kita menemukan bahwa
= .60. Koefisien
korelasi ini adalah ringkasan statistik dari tingkat hubungan antara dua set nilai dalam data Mr Young. Dalam
contoh khusus ini, ini menunjukkan sejauh mana jatuhnya nilai tes bakat (prediktor) merupakan prediksi musim
semi aritmatika nilai ujian (kriteria). Singkatnya, mengacu pada validitas-kriteria terkait bakat skor tes.
Seberapa baik adalah validitas koefisien Mr Young .60? Haruskah Pak Young akan senang dengan temuan ini
atau haruskah dia kecewa? Apakah tes ini bakat tertentu memberikan prediksi yang baik kinerja masa depan dalam
aritmatika?
Sayangnya, jawaban sederhana dan mudah tidak dapat diberikan atas pertanyaan-pertanyaan
tersebut. Interpretasi koefisien korelasi tergantung
pada informasi dari berbagai sumber. Pertama, kita tahu bahwa koefisien korelasi berikut menunjukkan
derajat ekstrim hubungan bahwa adalah mungkin untuk mendapatkan antara variabel:
1.00 = hubungan positif sempurna .00 = ada hubungan "1,00 = sempurna
hubungan negatif
Karena koefisien validitas Mr Young adalah .60, kita tahu bahwa hubungan yang positif tapi agak kurang
sempurna. Jelas, semakin dekat koefisien validitas pendekatan 1.00 bahagia kita dengan itu karena koefisien
validitas lebih besar menunjukkan akurasi yang lebih besar dalam memprediksi dari satu variabel yang lain. 3
Cara lain untuk mengevaluasi validitas koefisien Mr Young dari .60 adalah untuk membandingkannya dengan
koefisien validitas yang diperoleh dengan metode lain memprediksi kinerja dalam aritmatika. Jika koefisien validitas
ini lebih besar dari yang diperoleh dengan prosedur prediksi lain, Pak Young akan terus menggunakan tes bakat
skolastik. Sebagai cara terbaik yang tersedia baginya untuk memprediksi kinerja aritmatika muridnya. Dengan
demikian, koefisien validitas yang besar atau kecil hanya dalam hubungan satu sama lain. Dimana validitas-kriteria
terkait merupakan pertimbangan penting, kita akan selalu mempertimbangkan lebih menguntungkan tes dengan
koefisien validitas terbesar. Dalam hal ini, bahkan tes bakat dengan validitas agak rendah mungkin berguna,
namun, jika mereka adalah prediktor terbaik yang tersedia, dan prediksi mereka berikan adalah lebih baik daripada
kesempatan. 4
Mungkin cara termudah menangkap makna praktis dari koefisien korelasi adalah untuk dicatat bagaimana
akurasi prediksi meningkat sebagai koefisien korelasi menjadi lebih besar. Hal ini ditunjukkan dalam berbagai grafik
yang disajikan dalam Tabel 4.4. Baris-baris di setiap grafik mewakili perempat kelompok pada beberapa prediktor
(seperti tes bakat skolastik) dan kolom menunjukkan persentase orang yang jatuh di setiap keempat pada ukuran
kriteria (seperti tes prestasi).Pertama perhatikan bahwa untuk koefisien korelasi .00, berada di atas pada kuartal
prediktor tersebut tidak memberikan dasar untuk memprediksi di mana seseorang mungkin jatuh pada ukuran
kriteria. Peluangnya untuk jatuh setiap kuartal sama-sama baik. Sekarang beralih ke grafik untuk koefisien korelasi .
60. Perhatikan, di sini, bahwa jika seseorang jatuh pada kuartal atas pada prediktor, ia memiliki 54 peluang emas
dari 100 jatuh di kuartal teratas pada ukuran kriteria, 28 peluang emas dari 100 jatuh pada kuartal kedua, 14
peluang dari 100 jatuh pada kuartal ketiga, dan hanya 4 peluang emas dari 100 jatuh pada kuartal bawah. Sisa dari
grafik dibaca dengan cara yang sama.
Dengan membandingkan grafik untuk koefisien korelasi yang berbeda-ukuran, adalah mungkin untuk
mendapatkan beberapa merasakan arti dari koefisien korelasi dalam hal efisiensi prediksi. Sebagai koefisien
korelasi menjadi lebih besar, kemungkinan seseorang berada di triwulan yang sama pada ukuran kriteria seperti dia
berada di prediktor yang meningkat. Hal ini dapat dilihat dengan melihat entri di sel diagonal. Dengan koefisien
korelasi 1,00, masing-masing sel diagonal akan, tentu saja, mengandung 100 persen dari Casesa "menunjukkan
prediksi yang sempurna dari satu ukuran yang lain.
Memperkirakan Hadir Kinerja. Sampai titik ini kita telah menekankan peran validitas-kriteria terkait dalam
memprediksi kinerja masa depan. Meskipun ini mungkin penggunaan utama, ada kalanya kita tertarik dalam
hubungan kinerja tes untuk beberapa ukuran lainnya saat ini kinerja. Dalam hal ini, kita akan mendapatkan kedua
langkah kira-kira pada waktu yang sama dan mengkorelasikan hasil. Hal ini umumnya dilakukan ketika tes sedang
dipertimbangkan sebagai pengganti metode memakan waktu lebih untuk memperoleh informasi. Sebagai contoh,
Mr Brown, guru biologi, bertanya-tanya apakah tes obyektif kemampuan belajar dapat digunakan di tempat
pengamatan dan penilaian prosedur rumit ia gunakan saat ini. Dia merasa bahwa jika tes dapat diganti untuk
prosedur yang lebih kompleks, ia akan memiliki lebih banyak waktu untuk mengabdikan untuk murid individu
selama
T
diawasi masa studi. Analisis perilaku murid tertentu di mana ia dinilai kemampuan belajar murid 'menunjukkan
bahwa banyak prosedur dapat dinyatakan dalam bentuk pertanyaan tes objektif. Akibatnya, ia mengembangkan tes
obyektif kemampuan belajar bahwa ia diberikan kepada murid-muridnya. Untuk menentukan berapa memadai tes
diukur kemampuan belajar ia berkorelasi hasil tes dengan penilaian tentang kemampuan belajar siswa. Sebuah
koefisien korelasi yang dihasilkan dari 75 mengindikasikan kesepakatan yang cukup besar antara hasil tes dan
mengukur kriteria. Koefisien korelasi ini merupakan validitas-kriteria terkait uji Mr Brown kemampuan belajar.
Kita mungkin juga berkorelasi hasil tes dengan beberapa ukuran lainnya saat ini kinerja untuk menentukan
apakah sebuah studi prediktif adalah layak dilakukan. Sebagai contoh, jika satu set bakat skor tes skolastik
berkorelasi dengan tingkat yang cukup tinggi (misalnya, .60) dengan satu set nilai tes prestasi yang diperoleh pada
saat yang sama, itu akan menunjukkan bahwa tes bakat skolastik memiliki cukup potensial sebagai prediktor untuk
membuat sebuah studi prediktif berharga. Di sisi lain, korelasi yang rendah akan mencegah kita dari melakukan
studi prediktif, karena kita tahu bahwa korelasi akan menjadi masih lebih rendah ketika periode waktu antara
tindakan diperpanjang. Hal lain dianggap sama, semakin besar rentang waktu antara dua ukuran yang lebih kecil
koefisien korelasi.
Harapan Table. Seberapa baik tes memprediksi kinerja masa depan atau memperkirakan kinerja saat ini pada
beberapa ukuran kriteria juga dapat ditunjukkan dengan langsung memplot data dalam grafik dua kali lipat seperti
yang ditunjukkan pada Gambar 4.1. Di sini, Data Mr Young (dari Tabel 4.3) telah ditabulasikan dengan
menempatkan penghitungan menunjukkan berdiri masing-masing individu pada kedua skor bakat musim gugur dan
musim semi skor aritmatika.Sebagai contoh, John mencetak 119 pada tes bakat gugur dan 77 pada tes musim semi
aritmatika, sehingga penghitungan, mewakili penampilannya, ditempatkan di sel kanan atas. Kinerja semua murid
lain pada dua tes yang dihitung dengan cara yang sama. Dengan demikian, setiap tanda tally pada Gambar 4.1
merupakan seberapa baik masing-masing Mr Young dua puluh murid dilakukan pada musim gugur dan musim semi
tes. Total jumlah murid di masing-masing sel, dan di setiap kolom dan baris, juga telah ditunjukkan.
Grid harapan yang ditunjukkan pada Gambar 4.1 dapat digunakan secara langsung sebagai meja harapan,
hanya dengan menggunakan frekuensi dalam setiap sel. Penafsiran informasi tersebut sederhana dan
langsung. Misalnya, orang-orang murid yang mencetak di atas rata-rata pada tes bakat jatuh, tidak ada skor di
bawah 65 pada tes musim semi aritmatika, 2 dari 5 mencetak antara 65 dan 74, dan 3 dari 5 gol antara 75 dan 84.
Dari mereka yang mencetak bawah rata-rata pada tes bakat jatuh, tidak ada gol dalam kategori top pada tes
musim semi aritmatika dan 4 dari 5 gol di bawah 65. interpretasi ini terbatas pada kelompok diuji tetapi dari hasil
seperti yang mungkin membuat prediksi tentang masa depan murid.Kita dapat mengatakan, misalnya, bahwa
siswa yang mendapat skor di atas rata-rata pada tes musim gugur bakat mungkin akan mencetak gol atas rata-rata
pada tes musim semi aritmatika. Prediksi lain dapat dibuat dengan cara yang sama dengan mencatat frekuensi
dalam setiap sel grid pada Gambar 4.1.
Lebih umum, angka-angka dalam tabel harapan yang dinyatakan dalam persentase. Hal ini mudah
diperoleh dari grid dengan mengubah masing-masing frekuensi sel persentase dari jumlah total penghitungan di
barisnya. Ini telah dilakukan untuk data pada Gambar 4.1 dan hasilnya disajikan pada Tabel 4.5. Baris pertama dari
tabel menunjukkan bahwa dari 5 murid yang mencetak di atas rata-rata pada tes bakat jatuh, 40 persen (2 murid)
mencetak antara 65 and'74 pada tes musim semi aritmatika, dan 60 persen (3 murid) mencetak antara 75 dan 84.
Baris tersisa dibaca dengan cara yang sama. Penggunaan persentase membuat angka-angka dalam setiap baris
dan kolom yang sebanding. Prediksi kami kemudian dapat dibuat dalam hal standar (yaitu, kemungkinan dari 100)
untuk semua tingkat skor. Penafsiran kita sangat tepat untuk menjadi sedikit lebih jelas
jika kita mengatakan kemungkinan Henry berada di kelompok atas pada ukuran kriteria adalah 60 dari 100
dan Ralph hanya 10 dari 100, dibandingkan jika kita mengatakan kemungkinan Henry adalah 3 dari 5 dan Ralph
adalah 1 dari 10.
Tabel Harapan mengambil banyak bentuk yang berbeda dan dapat digunakan untuk menunjukkan hubungan
antara berbagai jenis ukuran. Jumlah kategori yang digunakan dengan prediktor, atau kriteria, mungkin sedikitnya
dua atau sebanyak tampaknya diinginkan. Juga, prediktor mungkin setiap set langkah-langkah yang kami ingin
membangun validitas kriteria-kriteria yang terkait dan mungkin nilai saja, peringkat, nilai tes, atau apa pun ukuran
keberhasilan relevan lainnya.0
Ketika menafsirkan tabel harapan didasarkan pada sejumlah kecil kasus, seperti kelas Mr Young dari dua puluh
murid, prediksi kami harus dianggap sebagai sangat tentatif "Setiap persentase didasarkan pada begitu sedikit
murid yang bisa kita harapkan fluktuasi besar dalam angka-angka dari satu kelompok murid yang lain. Hal ini sering
mungkin untuk meningkatkan jumlah murid diwakili dalam tabel dengan menggabungkan hasil tes dari beberapa
kelas. Dimana hal ini dilakukan, persentase kami, tentu saja, jauh lebih stabil, dan prediksi kami dapat dibuat
dengan keyakinan yang lebih besar. Dalam hal apapun, tabel harapan menyediakan cara sederhana dan langsung
menunjukkan validitas hasil tes.
The "Kriteria" Masalah. Dalam penentuan validitas-kriteria terkait, masalah utama adalah bahwa untuk
memperoleh memuaskan kriteria keberhasilan. Perlu diingat bahwa Mr Young menggunakan pemeriksaan
departemen yang komprehensif sebagai kriteria keberhasilan dalam kelas tujuh kelas aritmatika nya. Mr Brown
menggunakan penilaian sendiri kemampuan belajar siswa. Dalam setiap contoh kriteria keberhasilan itu hanya
sebagian cocok sebagai dasar untuk uji validasi. Pak Young mengakui bahwa pemeriksaan departemen tidak
mengukur semua pembelajaran penting hasil bahwa ia bertujuan untuk mengajar aritmatika. Ada hampir tidak
cukup penekanan pada penalaran aritmatika; interpretasi grafik dan diagram sayangnya diabaikan; dan, tentu saja,
tes tidak mengevaluasi sikap murid terhadap aritmatika (yang Pak Young dianggap sangat penting). Demikian juga,
Mr Brown sangat menyadari kekurangan dari nya kemampuan belajar murid. Dia merasa bahwa beberapa murid
"diletakkan pada sebuah pertunjukan" ketika mereka tahu mereka sedang diamati. Dalam kasus lain ia merasa
bahwa beberapa murid yang mungkin berlebihan pada kemampuan belajar karena prestasi yang tinggi dalam
pekerjaan kelas. Meskipun kekurangan diakui, baik Pak Young dan Mr Brown merasa perlu untuk menggunakan
langkah-langkah kriteria ini karena mereka adalah tindakan kriteria terbaik yang tersedia.
Plights dari Pak Young dan Mr Brown dalam menemukan kriteria yang cocok keberhasilan untuk tujuan validasi
tes yang tidak biasa. Pemilihan kriteria yang memuaskan adalah salah satu masalah yang paling sulit dalam
memvalidasi tes.Untuk tujuan pendidikan yang paling, tidak ada kriteria yang cukup sukses ada. Mereka yang
digunakan cenderung kurang dalam kelengkapan dan dalam kebanyakan kasus memberikan hasil yang kurang
stabil dibandingkan dengan tes divalidasi.
Kurangnya kriteria yang cocok untuk memvalidasi tes prestasi memiliki implikasi penting bagi guru
kelas. Karena jenis statistik validitas biasanya tidak tersedia, guru akan harus bergantung pada prosedur analisis
logis untuk menjamin validitas pengujian. Ini berarti hati-hati mengidentifikasi tujuan pengajaran, menyatakan
tujuan tersebut dalam hal perubahan tertentu dalam perilaku murid, dan membangun atau memilih instrumen
evaluasi yang memuaskan mengukur perubahan perilaku dicari dalam murid. Dengan demikian, validitas isi akan
mengambil peran sangat penting dalam evaluasi guru kemajuan murid.
Membangun Validitas
Kedua jenis validitas sejauh ini dijelaskan keduanya khawatir dengan beberapa penggunaan praktis spesifik hasil
tes. Mereka membantu kita menentukan bagaimana nilai tes juga merupakan pencapaian hasil belajar tertentu
(validitas isi), atau seberapa baik mereka memprediksi atau memperkirakan kinerja tertentu (validitas kriteria yang
berhubungan). Selain ini menggunakan lebih spesifik dan segera praktis, kita mungkin ingin menafsirkan nilai ujian
dalam hal beberapa kualitas psikologis umum. Misalnya, daripada berbicara tentang nilai seorang murid pada tes
aritmatika tertentu, atau seberapa baik memprediksi keberhasilan dalam matematika, kita mungkin ingin
menyimpulkan bahwa murid memiliki tingkat tertentukemampuan penalaran. ini memberikan gambaran umum
yang luas dari perilaku murid yang memiliki implikasi untuk banyak kegunaan yang berbeda.
Setiap kali kita ingin menafsirkan hasil tes dalam hal beberapa sifat atau kualitas psikologis, kita prihatin dengan
validitas konstruk. Sebuah konstruksi adalah kualitas psikologis yang kita asumsikan ada untuk menjelaskan
beberapa aspek perilaku. Kemampuan penalaran adalah membangun. Ketika kita menafsirkan nilai ujian sebagai
ukuran kemampuan penalaran, kita menyiratkan bahwa ada kualitas yang dapat tepat disebut kemampuan
penalaran dan bahwa hal itu dapat menjelaskan untuk beberapa derajat untuk kinerja pada tes. Memverifikasi
implikasi tersebut adalah tugas validasi konstruk.
Contoh umum dari konstruksi adalah kecerdasan, sikap ilmiah, berpikir kritis, pemahaman bacaan, kemampuan
belajar, dan bakat matematika. Ada keuntungan yang jelas untuk dapat menafsirkan hasil tes dalam hal konstruksi
psikologis seperti. Setiap konstruk memiliki teori yang mendasari yang dapat dibawa untuk menanggung dalam
menjelaskan dan memprediksi perilaku seseorang. Jika kita mengatakan seseorang sangat cerdas, misalnya, kita
tahu apa perilaku yang diharapkan dari dirinya dalam berbagai situasi tertentu.
Validitas konstruk dapat didefinisikan sebagai sejauh mana hasil tes dapat ditafsirkan dari segi konstruksi
psikologis tertentu. Theprocess menentukan validitas konstruk melibatkan langkah-langkah berikut: (1)
mengidentifikasi konstruksi dianggap untuk memperhitungkan hasil tes; (2) menurunkan hipotesis mengenai
kinerja pengujian dari teori yang mendasari konstruk; (3) memverifikasi hipotesis dengan logis dan empiris
berarti. Sebagai contoh, mari kita anggap bahwa kita ingin memeriksa klaim bahwa tes yang baru dibangun
mengukur kecerdasan. Dari apa yang diketahui tentang "kecerdasan," kita bisa membuat prediksi berikut:
1.
Nilai tes akan meningkat dengan meningkatnya umur (kecerdasan diasumsikan meningkat dengan usia
2.
3.
4.
Nilai tes akan berhubungan positif dengan skor pada tes kecerdasan lainnya yang disebut.
5.
Nilai tes akan membedakan antara kelompok yang diketahui berbeda, seperti "berbakat" dan "cacat
mental."
6.
Setiap prediksi ini, dan lain-lain, kemudian akan diuji, satu per satu. Jika hasil positif diperoleh untuk setiap prediksi,
bukti gabungan memberikan dukungan terhadap klaim bahwa tes mengukur kecerdasan. Jika prediksi tidak
dikonfirmasi, mengatakan nilai tidak meningkat dengan usia, kita harus menyimpulkan bahwa baik tes ini bukan
merupakan ukuran yang valid kecerdasan, atau ada sesuatu yang salah dengan teori kami. Sebagai Cronbach dan
Meehl 5 telah menunjukkan, dengan validasi konstruk teori dan tes sedang divalidasi pada saat yang sama.
Metode Digunakan Memperoleh Bukti untuk Membangun Validasi. Seperti tercantum dalam ilustrasi kita, tidak
ada metode tunggal yang memadai membangun validitas konstruk. Ini adalah masalah mengumpulkan bukti dari
berbagai sumber. Kami dapat menggunakan kedua validitas isi dan validitas-kriteria terkait sebagai bukti parsial
untuk mendukung validitas konstruk, tetapi tak satu pun dari mereka saja sudah cukup. Membangun validasi
tergantung pada kesimpulan logis yang diambil dari berbagai jenis data. Prosedur berikut menggambarkan
berbagai metode yang dapat digunakan dalam memperoleh bukti untuk validitas konstruk: 6
Century-Crofts, 1964).
1. Analisis proses mental yang diperlukan oleh item tes. Satu dapat menganalisis proses mental yang terlibat
dengan memeriksa item tes untuk menentukan faktor-faktor apa mereka muncul untuk mengukur dan / atau
dengan pemberian tes untuk siswa individu dan memiliki mereka "berpikir keras" karena mereka
menjawab. Dengan demikian, pemeriksaan tes ilmu pengetahuan dapat menunjukkan bahwa nilai tes kemungkinan
akan dipengaruhi oleh pengetahuan, pemahaman, dan kemampuan kuantitatif. Demikian pula, "berpikir keras"
pada tes penalaran aritmatika dapat memverifikasi bahwa item panggilan untuk proses penalaran dimaksudkan,
atau mungkin mengungkapkan bahwa sebagian besar masalah dapat diselesaikan dengan prosedur trial-and-error
yang sederhana.
2.
Perbandingan nilai dari kelompok yang dikenal. Dalam beberapa kasus, adalah mungkin untuk
memprediksi bahwa nilai akan berbeda dari satu kelompok ke kelompok lain. Ini mungkin kelompok usia, anak lakilaki dan perempuan, terlatih dan tidak terlatih, disesuaikan dan menyesuaikan diri, dan sejenisnya. Sebagai contoh,
sebagian besar kemampuan meningkat dengan usia (setidaknya selama masa kanak-kanak dan remaja), dan anak
laki-laki mendapatkan skor yang lebih tinggi dibandingkan anak perempuan pada tes tertentu (misalnya,
pemahaman mekanik). Selain itu, masuk akal untuk mengharapkan bahwa skor tes prestasi akan membedakan
antara kelompok dengan jumlah yang berbeda dari pelatihan dan bahwa nilai pada persediaan penyesuaian akan
membedakan antara kelompok disesuaikan dan maladjusted individu. Dengan demikian, prediksi perbedaan untuk
tes tertentu dapat diperiksa terhadap kelompok-kelompok yang diketahui berbeda dan hasilnya digunakan sebagai
dukungan parsial untuk validasi konstruk.
3.
Perbandingan skor sebelum dan setelah beberapa pengobatan tertentu. Beberapa nilai ujian dapat
diharapkan akan cukup tahan terhadap pelatihan khusus (misalnya, kecerdasan), sedangkan yang lain dapat
diharapkan untuk meningkatkan (misalnya, prestasi). Demikian pula, beberapa skor tes dapat diharapkan untuk
mengubah jenis tertentu sebagai pengobatan eksperimental diperkenalkan. Sebagai contoh, kita akan
mengharapkan nilai pada tes kecemasan untuk berubah ketika individu mengalami pengalaman kecemasanmemproduksi. Dengan demikian, dari teori yang mendasari sifat yang diukur, kita dapat membuat prediksi bahwa
skor tes tertentu akan berubah (atau tetap stabil) dalam berbagai kondisi. Jika prediksi kami diverifikasi, hasilnya
memberikan dukungan lebih lanjut untuk validasi konstruk.
4.
Korelasi dengan tes lainnya. Nilai dari setiap tes tertentu dapat diharapkan berkorelasi secara substansial
dengan nilai tes lain yang mungkin mengukur hal yang sama. Dengan cara yang sama, nilai tes dapat diharapkan
memiliki korelasi rendah dengan tes yang dirancang untuk mengukur kemampuan yang berbeda atau sifat. Sebagai
contoh, kita akan mengharapkan satu set skolastik skor tes bakat berkorelasi lebih tinggi dengan orang-orang dari
tes bakat skolastik lain, tetapi jauh lebih rendah dengan skor tes bakat musik. Dengan demikian, untuk setiap tes
yang diberikan, kami akan memprediksi korelasi tinggi dengan tes seperti dan korelasi rendah dengan tes
seperti. Selain itu, kami juga bisa memprediksi bahwa skor tes akan berkorelasi dengan berbagai kriteria
praktis. Skor bakat skolastik, misalnya, harus berkorelasi dengan nilai memuaskan sekolah, nilai tes prestasi, dan
langkah-langkah lain prestasi. Jenis kedua bukti, tentu saja, validitas-kriteria terkait. Kepentingan kita di sini,
bagaimanapun, tidak dalam masalah mendesak dari prediksi, melainkan dalam menggunakan korelasi ini untuk
mendukung klaim bahwa tes adalah ukuran dari bakat skolastik.Seperti yang ditunjukkan sebelumnya, membangun
validasi tergantung pada berbagai macam bukti, termasuk yang disediakan oleh jenis-jenis validitas.
Dalam memeriksa validitas konstruk, kepentingan kita tidak terbatas pada konstruksi psikologis tes dirancang untuk
mengukur. Setiap faktor yang mungkin mempengaruhi nilai tes menjadi perhatian yang sah. Sebagai contoh,
meskipun penulis uji mengklaim langkah-langkah tes penalaran aritmatika nya, kita mungkin berhak bertanya
sejauh mana skor tes dipengaruhi oleh keterampilan komputasi, kemampuan membaca, dan faktor-faktor yang
sama. Secara dipahami, validitas konstruk merupakan upaya untuk menjelaskan perbedaan dalam skor tes. Alihalih bertanya, "Apakah ukuran tes ini apa yang penulis mengklaim mengukur?" kita bertanya, "Tepatnya apa ukuran
tes ini? Bagaimana kita paling bermakna menafsirkan skor secara psikologis?" Tujuan validasi konstruk adalah untuk
mengidentifikasi sifat dan kekuatan dari semua faktor yang mempengaruhi kinerja pada tes.
Validitas konstruk sangat penting di semua jenis testing "prestasi, bakat, dan pengembangan pribadisosial. Apabila memilih tes standar, kita harus mencatat apa interpretasi disarankan untuk tes dan kemudian
meninjau uji manual untuk menentukan bukti total yang tersedia yang mendukung interpretasi ini. Kepercayaan diri
yang kita dapat membuat interpretasi yang diajukan secara langsung tergantung pada jenis bukti yang
diajukan. Juga, jika kita menduga bahwa skor tes dipengaruhi oleh faktor-faktor lain selain yang dijelaskan dalam
manual (seperti kecepatan dan kemampuan membaca), kita harus memeriksa firasat ini dengan eksperimen yang
cocok kita sendiri.
VALIDITAS KRITERIA-DISEBUTKAN TES PENGUASAAN
Seperti disebutkan dalam Bab 1, tes mengacu-norma dirancang untuk menekankan perbedaan antara
individu. Kinerja seseorang pada tes norma-referenced memiliki sedikit makna dengan sendirinya. Untuk menjadi
bermakna, kinerja uji harus dibandingkan dengan kinerja orang lain yang telah mengambil tes. Kami menilai
apakah nilai norma-referenced tinggi atau rendah dengan 'mencatat posisi relatif dalam satu set nilai. Dasar
pendekatan pengukuran ini adalah penyebaran luas nilai tes sehingga diskriminasi diandalkan dapat dibuat antara
individu-individu. Kita bisa berbicara tentang perbedaan antara Tom dan Bill dan Mary Jane dan dengan keyakinan
yang lebih besar jika perbedaan skor besar. Variabilitas ini antara skor, yang penting untuk pengujian normareferenced, juga diperlukan untuk menghitung koefisien validitas. Bahkan, sebagian besar langkah-langkah statistik
tradisional untuk memperkirakan validitas dan reliabilitas menggunakan rumus berdasarkan variabilitas antara
skor. Dengan demikian, meskipun semua berbagai perkiraan validitas dibahas sebelumnya sesuai untuk pengujian
norma-referenced, mereka tidak benar-benar sesuai untuk menilai keabsahan tes penguasaan kriteriadireferensikan. 7 1
Whe reas variabilitas antara nilai sangat penting untuk tes mengacu-norma, itu tidak relevan untuk tes penguasaan
kriteria-direferensikan. Tes ini dirancang untuk menggambarkan jenis tugas seorang individu dapat melakukan. Jika
semua siswa dapat melakukan himpunan tugas (misalnya, mengidentifikasi alat ukur termasuk dalam unit cuaca)
pada akhir instruksi, dan dengan demikian semua mendapatkan nilai sempurna (variabilitas nol), itu lebih baik. Dari
sudut pandang penguasaan pembelajaran, pengujian dan instruksi akan muncul untuk menjadi efektif. Karena
variabilitas antara skor bukanlah kondisi yang diperlukan untuk tes penguasaan kriteria-direferensikan baik,
langkah-langkah statistik konvensional untuk menentukan validitas yang tidak pantas. 8
Jenis validitas yang sangat penting terbesar untuk tes penguasaan kriteria-direferensikan adalah validitas
isi. Prosedur untuk memperoleh validitas isi dijelaskan sebelumnya dalam bab ini adalah sebagai berlaku di sini
seperti mereka dengan tes norma-referenced. Fakta bahwa tes penguasaan kriteria-direferensikan biasanya
terbatas pada domain yang lebih delimited tugas belajar (misalnya, satuan atau bab), bahkan menyederhanakan
proses mendefinisikan dan memilih sampel yang representatif dari tugas. Dalam beberapa kasus, domain tugas
sangat terbatas (misalnya, penambahan bilangan satu digit) bahwa sampel yang representatif dapat diperoleh
tanpa menggunakan tabel spesifikasi.
Meskipun validitas isi adalah perhatian utama dengan tes penguasaan kriteria-direferensikan, kami juga
mungkin tertarik menggunakan hasil tes untuk membuat prediksi tentang murid. Kita mungkin, misalnya,
menggunakan pretest kriteria-direferensikan untuk memprediksi siswa cenderung menguasai materi dalam unit
instruksi, atau menggunakan tes penguasaan end-of-satuan untuk menentukan murid harus melanjutkan ke unit
berikutnya instruksi . Keputusan instruksional seperti ini membutuhkan beberapa bukti (validitas-kriteria terkait)
bahwa keputusan kami didasarkan nyenyak. Bukti ini dapat diperoleh dengan cara meja harapan, seperti yang
ditunjukkan pada Tabel 4.6. Ini akan dicatat dalam tabel ini bahwa sebagian besar murid dengan skor pretest dari
20 atau lebih rendah gagal untuk mencapai penguasaan pada akhir unit. Dalam kasus seperti itu, skor tes dari 20
akan memberikan skor cutoff yang baik untuk menentukan siswa harus melanjutkan dengan unit dan yang
seharusnya menerima bantuan perbaikan sebelum melanjutkan. Kami akan, tentu saja, lebih memilih sejumlah
besar murid dari tiga puluh ketika memilih nilai cutoff tersebut, tapi ini merupakan situasi kelas yang
realistis.Seperti disebutkan sebelumnya, itu sering mungkin untuk meningkatkan jumlah murid yang digunakan
dalam tabel harapan dengan menggabungkan hasil tes dari beberapa kelas.
Tidak ada dalam sifat pengujian penguasaan kriteria-direferensikan untuk menyingkirkan validitas
konstruk. Begitu banyak bukti yang mendukung untuk validitas konstruk tergantung pada korelasi dan ukuran
statistik lain, bagaimanapun, bahwa validitas konstruk tes kriteria-direferensikan akan, kebutuhan, didasarkan pada
bukti-bukti yang agak sedikit (yaitu, hanya bukti bahwa tidak tergantung pada variabilitas antara skor).
FAKTOR YANG MEMPENGARUHI VALIDITAS
Banyak faktor yang cenderung membuat hasil tes tidak valid untuk digunakan. Beberapa agak jelas dan mudah
dihindari. Tidak ada guru akan berpikir untuk mengukur pengetahuan tentang ilmu-ilmu sosial dengan tes bahasa
Inggris. Guru juga akan mempertimbangkan mengukur keterampilan pemecahan masalah di kelas tiga aritmatika
dengan tes yang dirancang untuk anak kelas enam. Dalam kedua kasus hasil tes akan jelas tidak valid. Faktor-faktor
yang mempengaruhi validitas yang bersifat umum ini sama tapi jauh lebih halus dalam karakter. Sebagai contoh,
seorang guru dapat membebani tes ilmu sosial dengan item mengenai fakta-fakta sejarah dan dengan demikian itu
kurang valid sebagai ukuran pencapaian dalam studi sosial. Atau guru kelas tiga dapat memilih masalah aritmatika
yang sesuai untuk murid-muridnya, tetapi menulis arah yang hanya pembaca lebih mampu memahami dengan
jelas. Tes aritmatika kemudian menjadi tes membaca yang membatalkan hasil untuk digunakan. Ini adalah sifat dari
beberapa faktor yang lebih halus mempengaruhi validitas. Ini adalah faktor yang guru harus waspada, apakah
membangun tes kelas atau memilih tes standar.
Faktor-faktor dalam Test Sendiri
Pemeriksaan yang seksama item tes akan menunjukkan apakah tes tampaknya untuk mengukur kandungan
subyek dan fungsi mental bahwa guru tertarik dalam pengujian. Namun, salah satu dari faktor-faktor berikut dapat
mencegah item tes dari berfungsi sebagaimana dimaksud dan dengan demikian menurunkan validitas hasil
pengujian:
1. arah yang tidak jelas. Arah yang tidak jelas menunjukkan kepada murid bagaimana menanggapi item, apakah
itu diperbolehkan untuk menebak, dan cara merekam jawaban akan cenderung mengurangi validitas.
2.
Membaca kosa kata dan kalimat struktur terlalu sulit. Kosakata dan struktur kalimat yang terlalu rumit
untuk siswa mengambil tes akan menghasilkan tes mengukur pemahaman bacaan dan aspek kecerdasan daripada
aspek perilaku murid bahwa tes ini dimaksudkan untuk mengukur.
3.
Tingkat Inappropriate kesulitan dari item tes. Dalam tes norma-direferensikan, item yang terlalu mudah
atau terlalu sulit tidak akan memberikan diskriminasi handal di antara murid dan validitas karena itu akan lebih
rendah. Dalam tes kriteria-direferensikan, kegagalan untuk mencocokkan kesulitan item tes dengan kesulitan yang
ditentukan dalam tujuan instruksional akan menurunkan validitas.
4.
Item tes buruk dibangun. item uji yang sengaja memberikan petunjuk jawabannya akan cenderung
mengukur kewaspadaan para murid dalam mendeteksi petunjuk serta aspek perilaku murid bahwa tes ini
dimaksudkan untuk mengukur.
5.
Ambiguitas. pernyataan
ambigu
dalam
item
tes
berkontribusi
terhadap
salah
tafsir
dan
kebingungan. Ambiguitas terkadang membingungkan siswa yang lebih baik lebih dari siswa miskin, menyebabkan
item berfungsi bahkan kurang efektif untuk mereka.
6.
Item tes yang tidak pantas untuk hasil yang diukur. Mencoba untuk mengukur pemahaman, keterampilan
berpikir, dan jenis kompleks lainnya prestasi dengan bentuk tes yang sesuai hanya untuk mengukur pengetahuan
faktual akan membatalkan hasil.
7.
Uji terlalu pendek. Sebuah tes hanya contoh dari banyak pertanyaan yang mungkin ditanyakan. Jika tes ini
terlalu singkat untuk memberikan sampel yang representatif dari perilaku kita tertarik, validitas akan menderita
sesuai.
8.
Pengaturan yang tidak tepat item. item Uji biasanya diatur dalam urutan kesulitan dengan item termudah
pertama. Menempatkan item yang sulit di awal tes dapat menyebabkan murid untuk menghabiskan terlalu banyak
waktu pada ini dan mencegah mereka dari mencapai barang-barang mereka dengan mudah bisa
menjawab. Pengaturan yang tidak tepat juga dapat mempengaruhi validitas dengan memiliki efek yang merugikan
pada motivasi murid.
9.
Pola diidentifikasi jawaban. Menempatkan jawaban dalam beberapa pola yang sistematis (misalnya, T, T,
F, F, atau A, B, C, D, A, B, C, D) akan memungkinkan siswa untuk menebak jawaban atas beberapa item yang lebih
mudah dan ini akan menurunkan validitas.
Singkatnya, cacat dalam pembangunan tes yang mencegah item tes dari berfungsi selaras dengan tujuan
penggunaannya akan memberikan kontribusi pada ketidakabsahan pengukuran. Banyak dari apa yang tertulis
dalam bab-bab berikut diarahkan meningkatkan validitas hasil yang diperoleh dengan tes kelas dan instrumen
evaluasi lainnya.
Berfungsi Konten dan Pengajaran Prosedur
Dalam kasus pengujian prestasi, isi berfungsi item tes tidak dapat ditentukan hanya dengan memeriksa bentuk
dan isi tes. Misalnya, item berikut mungkin muncul untuk mengukur penalaran ilmu hitung jika diperiksa tanpa
mengacu pada apa yang siswa telah diajarkan:
Jika pipa 40 'dipotong sehingga bagian yang lebih pendek adalah 2/3 selama lagi sepotong, apa yang
panjang dari potongan yang lebih pendek?
Namun, jika guru telah mengajarkan solusi untuk masalah tertentu sebelum memberikan tes, item tes sekarang
ukuran tidak lebih dari pengetahuan hafal. Demikian pula, tes pemahaman, berpikir kritis, dan kompleks hasil
belajar lainnya adalah tindakan yang sah di daerah ini hanya jika item tes berfungsi sebagaimana dimaksud. Jika
murid sebelumnya telah diajarkan solusi untuk masalah-masalah tertentu yang termasuk dalam ujian, atau telah
diajarkan langkah mekanik untuk mendapatkan solusi, tes tersebut tidak bisa lagi dianggap instrumen yang valid
untuk mengukur proses mental yang lebih kompleks.
Faktor-faktor di Uji Administrasi dan Scoring
Administrasi dan scoring tes juga dapat memperkenalkan faktor yang memiliki efek yang merugikan pada
keabsahan hasil. Dalam kasus tes buatan guru, faktor-faktor seperti waktu yang cukup untuk menyelesaikan tes,
bantuan tidak adil untuk siswa individu yang meminta bantuan, kecurangan selama pemeriksaan, dan skor tidak
dapat diandalkan jawaban esai akan cenderung untuk menurunkan validitas. Dalam kasus tes standar, kegagalan
untuk mengikuti petunjuk standar dan batas waktu, memberikan bantuan siswa yang tidak sah, dan kesalahan
dalam mencetak gol sama akan berkontribusi pada validitas rendah. Untuk semua jenis tes, kondisi fisik dan
psikologis yang merugikan pada saat pengujian juga mungkin memiliki efek yang merugikan.
Faktor-faktor dalam Responses Murid '
Dalam beberapa kasus, hasil tes tidak valid karena faktor personal yang mempengaruhi respon pupil terhadap
situasi tes daripada segala kekurangan dalam instrumen tes. Siswa dapat terhambat oleh gangguan emosi yang
mengganggu hasil tes mereka. Beberapa murid ketakutan karena situasi tes dan dengan demikian tidak mampu
merespon secara normal. Yang lain tidak termotivasi untuk mengajukan upaya terbaik mereka. Ini dan faktor lain
yang membatasi dan memodifikasi respon murid dalam situasi tes jelas akan menurunkan validitas hasil tes.
Faktor kurang jelas yang mempengaruhi hasil tes adalah bahwa respon ditetapkan.
11
kecenderungan yang konsisten untuk mengikuti pola tertentu dalam menanggapi untuk menguji item. Sebagai
contoh, beberapa orang akan merespon "benar" ketika mereka tidak tahu jawaban untuk item benar-salah,
sementara orang lain akan cenderung untuk menandai "palsu." Sebuah tes dengan sejumlah besar laporan yang
benar sehingga akan menguntungkan bagi tipe pertama orang dan kelemahan dari jenis kedua. Meskipun beberapa
set respon, seperti yang diilustrasikan, dapat diimbangi dengan prosedur yang cermat uji konstruksi (misalnya,
termasuk jumlah yang sama pernyataan benar dan salah dalam ujian) set respon lain yang lebih sulit
dikendalikan. Khas respon set dalam kategori terakhir ini adalah kecenderungan untuk bekerja untuk kecepatan
bukan ketepatan, kecenderungan untuk berjudi bila ragu, dan penggunaan gaya tertentu dalam menanggapi tes
esai. Respon set ini mengurangi keabsahan hasil pengujian dengan memperkenalkan faktor-faktor nilai tes yang
tidak relevan dengan tujuan pengukuran. 12
Sifat Grup dan Kriteria tersebut
Validitas selalu spesifik untuk kelompok tertentu. Tes aritmatika berdasarkan masalah cerita, misalnya, dapat
mengukur kemampuan penalaran dalam kelompok lambat, dan kombinasi recall sederhana informasi dan
keterampilan komputasi dalam kelompok yang lebih maju. Demikian pula, nilai pada tes ilmu pengetahuan dapat
menyumbang sebagian besar dengan membaca pemahaman dalam satu kelompok dan dengan pengetahuan
tentang fakta-fakta lain. Apa langkah-langkah uji dipengaruhi oleh faktor-faktor seperti usia, jenis kelamin, tingkat
kemampuan, latar belakang pendidikan, dan latar belakang budaya. Dengan demikian, dalam menilai laporan uji
validitas termasuk dalam manual tes, atau sumber lain, penting untuk dicatat sifat kelompok validasi. Seberapa
dekat itu membandingkan karakteristik signifikan terhadap sekelompok murid kita ingin uji menentukan bagaimana
berlaku Informasi adalah untuk kelompok tertentu kami.
Dalam mengevaluasi koefisien validitas, juga perlu mempertimbangkan sifat dari kriteria yang
digunakan. Sebagai contoh, skor pada tes bakat matematika cenderung untuk memberikan prediksi yang lebih
akurat dari pencapaian dalam kursus fisika di mana masalah kuantitatif ditekankan daripada di salah satu di mana
mereka hanya memainkan peran kecil. Demikian juga, kita bisa mengharapkan nilai pada tes berpikir kritis
berkorelasi lebih tinggi dengan nilai dalam studi sosial program yang menekankan pemikiran kritis dibandingkan
pada mereka yang sangat tergantung pada menghafal informasi faktual. Hal lain dianggap sama, semakin besar
kesamaan antara perilaku diukur dengan tes dan perilaku diwakili dalam kriteria, semakin tinggi koefisien validitas.
Karena informasi validitas bervariasi dengan sifat kelompok diuji dan dengan komposisi ukuran kriteria yang
digunakan, validasi data yang dipublikasikan harus dianggap sebagai sangat tentatif. Bila mungkin, validitas hasil
tes harus diperiksa dalam situasi lokal yang spesifik.
Ini diskusi tentang faktor yang mempengaruhi validitas hasil tes harus membuat jelas sifat meresap dan
fungsional validitas konsep. Dalam analisis akhir validitas hasil tes didasarkan pada sejauh mana perilaku
ditimbulkan dalam situasi pengujian adalah representasi benar
perilaku yang sedang dievaluasi. Tims, apa pun dalam pembangunan atau administrasi dari tes yang menyebabkan
hasil tes menjadi representatif dari karakteristik orang yang diuji memberikan kontribusi untuk menurunkan
validitas. Dalam arti yang sangat nyata, maka, itu adalah pengguna dari tes yang harus membuat keputusan akhir
mengenai validitas dari hasil tes. Dia adalah satu-satunya yang tahu seberapa baik tes sesuai penggunaan yang
khusus, seberapa baik kondisi pengujian yang terkontrol, dan bagaimana tanggapan khas adalah untuk situasi
pengujian.
pengaruh ini dapat ditemukan dalam instrumen tes itu sendiri, beberapa dalam hubungan pengajaran pengujian,
beberapa dalam administrasi dan skor tes, beberapa di tanggapan atipikal siswa dengan situasi tes, dan masih
orang lain dalam sifat kelompok diuji dan dalam komposisi tindakan kriteria yang digunakan. Tujuan utamanya
dalam pembangunan, seleksi, dan penggunaan tes, dan instrumen evaluasi lainnya, adalah untuk mengendalikan
faktor-faktor yang memiliki efek buruk pada validitas dan menginterpretasikan hasil evaluasi sesuai dengan apa
informasi validitas tersedia.
RINGKASAN
Kualitas yang paling penting untuk dipertimbangkan saat memilih 'atau membangun instrumen evaluasi adalah
validitas. Hal ini mengacu pada sejauh mana hasil evaluasi melayani penggunaan tertentu yang mereka
dimaksudkan. Dalam menafsirkan informasi validitas, penting untuk diingat bahwa validitas mengacu
pada hasil daripada instrumen, bahwa kehadirannya adalah masalah derajat, dan itu selalu spesifik untuk beberapa
penggunaan tertentu.
Ada tiga tipe dasar validitas. Konten validitas mengacu pada sejauh mana sebuah tes mengukur sampel yang
representatif dari isi pelajaran-materi dan perubahan perilaku dalam pertimbangan. Hal ini terutama penting dalam
pengujian prestasi dan ditentukan oleh analisis logis dari konten pengujian. -Kriteria terkait validitas berkaitan
dengan sejauh mana hasil tes akurat dalam memprediksi beberapa kinerja masa depan atau memperkirakan
beberapa kinerja saat ini. Jenis validitas dapat dilaporkan dengan menggunakan koefisien korelasi disebut koefisien
validitas atau dengan cara tabel harapan. Ini adalah makna khusus dalam semua jenis pengujian bakat, tetapi yang
bersangkutan setiap kali hasil tes digunakan untuk membuat prediksi spesifik, atau kapan tes sedang
dipertimbangkan sebagai pengganti prosedur memakan waktu lebih. Membangun validitas mengacu pada sejauh
yang hasil tes dapat ditafsirkan dari segi konstruksi psikologis tertentu.Proses validasi konstruk melibatkan
identifikasi dan klarifikasi faktor yang mempengaruhi nilai tes sehingga hasil tes dapat diartikan paling
bermakna. Ini melibatkan akumulasi bukti dari berbagai studi yang berbeda. Kedua jenis validitas dapat digunakan
sebagai dukungan parsial untuk validitas konstruk, tetapi itu adalah bukti gabungan dari semua sumber yang
penting. Semakin lengkap bukti, semakin yakin kita tentang kualitas psikologis yang diukur dengan tes.
Karena kriteria-referenced tes penguasaan tidak dirancang untuk membedakan antara individu-individu, jenis
statistik validitas yang tidak pantas. Untuk jenis tes, kita harus bergantung terutama pada validitas isi. Dimana nilai
tes yang akan digunakan untuk prediksi (misalnya, penguasaan-nonmastery), meja harapan dapat digunakan
secara efektif.
Sejumlah faktor cenderung mempengaruhi validitas hasil tes. Beberapa
BELAJAR LATIHAN
1.
Dengan cara apa tabel spesifikasi berkontribusi terhadap validitas isi? Apa aspek validitas isi yang paling
2.
Bandingkan kesulitan relatif menentukan validitas isi untuk tes ejaan dan tes IPS. Untuk daerah mana akan
3.
Jika Anda ingin menentukan validitas isi dari tes prestasi standar, prosedur apa yang akan Anda
ikuti? Jelaskan langkah demi langkah prosedur Anda dan memberikan alasan untuk setiap langkah.
4.
Jika sesama guru mengatakan kepada Anda bahwa tes prestasi standar tertentu memiliki validitas yang
5.
b.
Sebuah tes dianalisis untuk melihat bagaimana hal itu cukup sampel apa yang telah diajarkan.
c.
d.
Skor tinggi dan skor rendah pada tes dibandingkan untuk melihat bagaimana mereka berbeda.
e.
6.
Apa keuntungan dari tabel harapan atas koefisien validitas untuk mengungkapkan efektivitas prediktif dari
7.
Apakah ada tipe tertentu bukti mungkin berguna dalam mengevaluasi validitas konstruk dari masing-
b.
Tes kreativitas.
c.
8.
Uji kecemasan.
Pelajari
bagian
validitas
manual
tes
untuk
beberapa
tes
prestasi
standar
dan
tes
bakat
skolastik. Bagaimana informasi yang berbeda untuk kedua jenis tes? Mengapa?
9.
Konsultasikan bagian validitas dari Standar u n t u k Pendidikan dan Tes Psikologi (lihat daftar bacaan untuk
bab ini) dan meninjau jenis informasi yang manual tes harus berisi. Bandingkan manual tes baru-baru
terhadap Standar.
10. Daftar dan jelaskan secara singkat sebagai banyak faktor yang Anda bisa memikirkan yang mungkin
menurunkan validitas norma-referenced tes kelas. Lakukan hal yang sama untuk kriteria-referenced tes. Faktorfaktor yang berbeda?
SARAN UNTUK BACAAN LEBIH LANJUT
. AMERICAN PSYCHOLOGICAL ASSOCIATION . Standar Pendidikan dan Tes Psikologi Washington, D C.:. APA, 1974. Lihat
bagian tentang validitas (halaman 25-48) untuk deskripsi dari tipe dasar dan sifat informasi validitas harus
dicari dalam uji manual.
ANASTASI , A. Psychological Testing, 4th ed. New York: Macmillan Publishing Co, Inc, 1976 Bab 6, "Validitas:. Konsep
Dasar". Menjelaskan jenis standar validitas dan metode penentuan mereka.
CRONBACH , LJ "Validitas," Bab 14 di RL Thorndike (ed.), Pendidikan Pengukuran. Washington, DC: American Council
on Education 1971 Sebuah diskusi komprehensif validitas, dengan penekanan khusus pada tes pendidikan..
POPHAM , WJ, dan TR HUSEK . "Implikasi Kriteria-Referensi Pengukuran," di WJ Popham (ed.), Kriteria-Referensi
Pengukuran. Englewood Cliffs, NJ:. Teknologi Pendidikan Publications, 1971 Menjelaskan karakteristik
pengukuran kriteria-referenced dan kesulitan memperoleh langkah-langkah yang berarti validitas dan
kehandalan.
Uji Bulletin
WESMAN , AG . ganda-Entry Harapan Tabel Uji Service Bulletin, No 45 New York:.. The Psychological Corporation,
1966 buletin ini menjelaskan dan menggambarkan bagaimana mempersiapkan tabel harapan menggunakan
dua prediktor.
BAB
Keandalan
dan
Diinginkan Lainnya
Karakteristik
Sebelah validitas, reliabilitas adalah karakteristik yang paling penting dari hasil evaluasi. . . . Keandalan (1)
memberikan konsistensi yang membuat validitas mungkin, dan (2) menunjukkan berapa banyak keyakinan kita
dapat menempatkan dalam hasil kami. . . . Kepraktisan prosedur evaluasi adalah, tentu saja, juga menjadi
perhatian guru kelas sibuk.
Dalam Bab 4 itu menekankan bahwa validitas adalah pertimbangan yang paling penting dalam pemilihan dan
konstruksi prosedur evaluasi. Pertama dan terpenting kami ingin hasil evaluasi untuk melayani penggunaan spesifik
yang mereka dimaksudkan. Selanjutnya dalam pentingnya adalah kehandalan, dan berikut ini yang merupakan
sejumlah fitur praktis yang terbaik dapat diklasifikasikan ke dalam pos dari kegunaan.
KEANDALAN
Keandalan mengacu pada konsistensi pengukuran. Artinya, bagaimana skor tes konsisten atau hasil evaluasi lain
dari satu pengukuran ke yang lain. Anggaplah, misalnya, bahwa Miss Jones baru saja diberi tes prestasi untuk
murid-muridnya.Bagaimana serupa akan skor siswa 'bila dia diuji mereka kemarin atau besok atau minggu
depan? Bagaimana nilai bervariasi telah ia memilih sampel yang berbeda dari item yang setara? Jika itu adalah tes
esai, berapa banyak akan nilai telah diubah telah guru yang berbeda mencetak gol itu? Ini adalah jenis pertanyaan
yang dengan keandalan yang bersangkutan. Nilai tes hanya memberikan ukuran terbatas perilaku yang diperoleh
pada waktu tertentu. Kecuali pengukuran dapat terbukti cukup konsisten (yaitu, digeneralisasikan) lebih berbeda
m
kesempatan atau lebih sampel yang berbeda dari perilaku yang sama, sedikit kepercayaan dapat
ditempatkan dalam hasil.
Di sisi lain, kita tidak bisa mengharapkan hasil pengujian yang akan benar-benar konsisten. Ada banyak faktor
selain kualitas yang diukur yang dapat mempengaruhi nilai tes. Jika tes tunggal diberikan kepada kelompok yang
sama dua kali dalam suksesi dekat, beberapa variasi dalam nilai dapat diharapkan karena fluktuasi sementara
dalam memori, perhatian, tenaga, kelelahan, ketegangan emosional, menebak, dan faktor-faktor yang
sama. Dengan jangka waktu yang lebih lama antara tes, variasi tambahan dalam skor dapat disebabkan oleh
intervensi pengalaman belajar, perubahan kesehatan, lupa, dan kondisi pengujian kurang sebanding. Jika kita
menggunakan sampel yang berbeda dari item dalam tes kedua, masih faktor lain yang mungkin mempengaruhi
hasil. Individu mungkin menemukan satu tes lebih mudah daripada yang lain karena kebetulan berisi item lebih
lanjut tentang topik tertentu yang mereka kenal. 9 faktor-faktor luar Seperti ini memperkenalkan sejumlah
kesalahan dalam semua nilai tes. Metode penentuan keandalan pada dasarnya berarti menentukan berapa banyak
kesalahan yang hadir dalam kondisi yang berbeda. Secara umum, lebih konsisten hasil tes kami berasal dari satu
pengukuran ke yang lain, semakin sedikit kesalahan saat dan, akibatnya, semakin besar keandalan.
Arti dari keandalan, seperti yang diterapkan untuk pengujian dan evaluasi, dapat lebih diperjelas dengan
mencatat poin umum berikut:
1.
Keandalan mengacu pada hasil yang diperoleh dengan instrumen evaluasi dan tidak instrumen itu
sendiri. Setiap instrumen tertentu mungkin memiliki sejumlah reliabilitas yang berbeda, tergantung pada kelompok
yang terlibat dan situasi di mana ia digunakan. Oleh karena itu lebih tepat untuk berbicara tentang keandalan "skor
tes," atau "pengukuran," daripada "tes", atau "instrumen."
2.
Sebuah titik yang terkait erat adalah bahwa perkiraan keandalan selalu mengacu pada jenis tertentu dari
konsistensi. Nilai tes tidak dapat diandalkan pada umumnya. Mereka dapat diandalkan (atau digeneralisasikan)
selama periode waktu yang berbeda, lebih sampel yang berbeda dari pertanyaan, lebih dari penilai yang berbeda,
dan sejenisnya. Hal ini dimungkinkan untuk nilai tes untuk konsisten dalam salah satu hal ini dan tidak di negara
lain. Jenis yang sesuai konsistensi dalam kasus tertentu ditentukan oleh penggunaan dibuat dari hasil. Sebagai
contoh, jika kita ingin tahu apa yang orang akan seperti pada beberapa waktu mendatang, keajegan skor sangat
penting. Di sisi lain, jika kita ingin mengukur pergeseran individu dalam kecemasan dari waktu ke waktu, kita akan
membutuhkan ukuran yang tidak memiliki keteguhan atas kesempatan untuk mendapatkan informasi yang kita
inginkan. Jadi, untuk interpretasi yang berbeda kita perlu analisis yang berbeda dari konsistensi. Mengobati
keandalan sebagai karakteristik umum hanya dapat menyebabkan interpretasi yang salah.
3.
Keandalan adalah perlu tetapi bukan kondisi yang cukup untuk validitas. Sebuah tes yang memberikan
hasil yang benar-benar konsisten tidak mungkin memberikan informasi yang valid tentang perilaku yang diukur. Di
sisi lain, hasil tes yang sangat konsisten dapat mengukur hal yang salah atau dapat digunakan dalam cara-cara
yang tidak pantas. Dengan demikian, keandalan rendah dapat diharapkan untuk membatasi tingkat validitas yang
diperoleh, tapi keandalan yang tinggi tidak memberikan jaminan bahwa tingkat memuaskan validitas akan
hadir. Singkatnya, keandalan hanya memberikan konsistensi yang membuat validitas mungkin.
Meskipun ukuran yang sangat handal mungkin memiliki sedikit atau tidak ada validitas, ukuran yang telah
terbukti memiliki tingkat validitas prediktif memuaskan kebutuhan harus memiliki keandalan yang cukup. Jadi, di
mana kita hanya tertarik dalam memprediksi kriteria tertentu, keandalan akan sedikit perhatian jika validitas
prediktif yang memuaskan. 10 4. Tidak seperti validitas, reliabilitas terutama statistik di alam. Analisis logis dari tes
akan memberikan sedikit bukti mengenai keandalan skor. Tes harus diberikan, satu atau beberapa kali, untuk
kelompok yang tepat orang dan konsistensi hasil ditentukan. Konsistensi ini dapat dinyatakan dalam hal pergeseran
dalam kedudukan relatif orang dalam kelompok atau dalam hal jumlah variasi yang diharapkan dalam skor individu
tertentu itu. Konsistensi dari tipe pertama dilaporkan dengan menggunakan koefisien korelasi disebut koefisien
reliabilitas. Konsistensi jenis kedua dilaporkan dengan cara kesalahan baku pengukuran. Kedua metode
mengekspresikan keandalan secara luas digunakan dan harus dipahami oleh orang-orang yang bertanggung jawab
untuk menafsirkan hasil tes. 11 Karena kedua metode memerlukan variabilitas dalam skor, prosedur ini untuk
memperkirakan kehandalan terutama berguna dengan norma-referenced tindakan.
Menentukan Keandalan oleh Metode Korelasi
Dalam menentukan keandalan akan diinginkan untuk mendapatkan dua set langkah-langkah di bawah kondisi
yang sama dan kemudian membandingkan hasilnya. Prosedur ini tidak mungkin, tentu saja, karena kondisi di mana
data evaluasi diperoleh tidak dapat identik. Sebagai pengganti prosedur yang ideal ini beberapa metode estimasi
reliabilitas telah diperkenalkan. Metode serupa dalam bahwa semua dari mereka melibatkan menghubungkan dua
set data, diperoleh baik dari instrumen evaluasi yang sama atau dari bentuk setara dengan prosedur yang
sama. Koefisien korelasi yang digunakan untuk menentukan reliabilitas dihitung dan diinterpretasikan dengan cara
yang sama seperti yang digunakan dalam menentukan perkiraan statistik validitas. Satu-satunya perbedaan antara
koefisien validitas dan koefisien reliabilitas adalah bahwa mantan didasarkan pada kesepakatan dengan kriteria
luar, dan yang terakhir didasarkan pada kesepakatan antara dua set hasil dari prosedur yang sama.
Metode utama memperkirakan kehandalan ditunjukkan pada Tabel 5.1. Perhatikan bahwa berbagai jenis
konsistensi ditentukan oleh methods berbeda "konsistensi selama periode waktu, konsistensi atas berbagai
bentuk instrumen, dan konsistensi dalam instrumen itu sendiri. Koefisien reliabilitas yang dihasilkan dari setiap
metode harus ditafsirkan dalam hal jenis konsistensi sedang diselidiki. Masing-masing metode memperkirakan
keandalan akan dipertimbangkan lebih lanjut secara rinci seperti yang kita lanjutkan. Meskipun metode ini akan
didiskusikan terutama dengan mengacu pada prosedur pengujian, mereka juga berlaku untuk jenis lain dari teknik
evaluasi.
TABEL 5.1
METODE KEANDALAN ESTIMATINC
Jenis
Keandalan Ukur
Test-retest metode Mengukur stabilitas
Setara-bentuk
metode
Prosedur
Mengukur
kesepadanan-
bahwa kekerasan
Ukur
internal
konsistensi
Berikan tes sekali. Skor dua bagian setara dengan tes (misalnya, barangbarang aneh dan bahkan item); koefisien reliabilitas yang benar agar
sesuai seluruh tes dengan rumus Spearman-Brown
Berikan tes sekali. Skor keseluruhan pengujian dan menerapkan rumus Kuder-Richardson
Ini akan ditarik dari pembahasan sebelumnya kami koefisien korelasi bahwa hubungan positif yang sempurna
ditandai dengan 1,00 dan hubungan nol dengan .00. Tindakan stabilitas di, 80 dan .90 's biasanya dilaporkan untuk
tes standar kecerdasan dan prestasi atas kesempatan dalam tahun yang sama.
Salah satu faktor penting yang perlu diingat dalam menafsirkan tindakan stabilitas adalah interval waktu antara
tes. Jika interval waktu ini singkat, katakanlah satu atau dua hari, keteguhan dari hasil akan meningkat oleh
kenyataan bahwa murid akan mengingat beberapa jawaban mereka dari tes pertama yang kedua. Jika interval
waktu yang panjang, katakanlah sekitar satu tahun, hasilnya akan tidak hanya dipengaruhi oleh ketidakstabilan
prosedur pengujian tetapi juga oleh perubahan aktual dalam murid selama periode waktu. Secara umum, semakin
lama interval waktu antara tes dan tes ulang lebih hasilnya dipengaruhi oleh perubahan pupil makhluk karakteristik
diukur, dan semakin kecil koefisien reliabilitas.
Jam berapa interval antara tes yang paling disukai akan sangat tergantung pada penggunaan yang akan dibuat
dari hasil. Jika kita mencoba untuk memprediksi dari nilai tes kelas sembilan apakah anak laki-laki cenderung untuk
berhasil di perguruan tinggi, stabilitas selama beberapa tahun cukup penting. Jika kita mencoba untuk memprediksi
apakah dia akan berhasil dalam kursus aljabar tahun ini, stabilitas selama periode lebih lama dari beberapa bulan
yang cukup penting.Dengan demikian, untuk beberapa keputusan yang kita tertarik pada koefisien reliabilitas
berdasarkan interval panjang antara tes dan tes ulang dan, untuk orang lain, koefisien reliabilitas berdasarkan
interval pendek mungkin cukup. Yang penting adalah untuk mencari bukti stabilitas yang sesuai dengan penafsiran
tertentu yang akan dibuat.
Kebanyakan guru tidak akan menemukan mungkin untuk menghitung koefisien reliabilitas test-retest untuk tes
kelas mereka sendiri. Namun, dalam memilih tes standar stabilitas nilai berfungsi sebagai salah satu kriteria
penting. Manual tes harus memberikan bukti stabilitas, menunjukkan interval waktu antara tes dan setiap
pengalaman yang tidak biasa anggota kelompok mungkin memiliki antara pencobaan. Hal lain dianggap sama
(seperti validitas), kita akan mendukung tes yang nilainya telah terbukti memiliki jenis stabilitas yang kita butuhkan
untuk membuat keputusan suara.
Informasi yang berkaitan dengan stabilitas nilai tes juga memiliki implikasi untuk penggunaan hasil tes dari
catatan sekolah dan frekuensi yang diperlukan pengujian ulang. Kita tahu, misalnya, bahwa bakat skolastik
pertama-kelas nilai tes yang cukup stabil selama kesempatan dalam tahun yang sama, tetapi relatif stabil selama
beberapa tahun. Dengan demikian, kita dapat berharap untuk menggunakan hasil tersebut dalam menentukan
kesiapan untuk bekerja pertama-kelas, tetapi tidak harus bergantung pada mereka untuk perkiraan kemampuan
belajar di kelas-kelas SD nanti. Untuk penggunaan ini, tes kedua perlu diberikan pada awal periode SD
nanti. Demikian pula, ketika menggunakan setiap skor tes dari catatan permanen, orang harus memeriksa tanggal
pengujian dan data stabilitas yang tersedia untuk menentukan apakah hasilnya masih bisa diandalkan. Jika ada
keraguan dan keputusan penting, pengujian ulang adalah dalam rangka.
Metode Equivalent-Forms. Memperkirakan reliabilitas dengan menggunakan metode yang setara-bentuk
melibatkan penggunaan dua bentuk yang berbeda namun setara dengan tes (juga disebut paralel atau bentukbentuk alternatif). 1 Kedua bentuk tes yang diberikan kepada kelompok yang sama murid dalam suksesi dekat dan
skor tes yang dihasilkan berkorelasi. Koefisien korelasi ini memberikan ukuran kesetaraan. Dengan demikian, hal ini
menunjukkan sejauh mana kedua bentuk tes yang mengukur aspek perilaku yang sama.
Perlu dicatat bahwa metode setara-bentuk memberitahu kita apa-apa tentang stabilitas karakteristik murid yang
diukur. Koefisien reliabilitas ini mencerminkan sejauh mana tes merupakan sampel yang memadai dari karakteristik
yang sedang diukur. Dalam pengujian prestasi, misalnya, ada ribuan pertanyaan yang mungkin ditanyakan dalam
tes tertentu. Namun, karena batas waktu dan faktor membatasi lain, hanya sejumlah pertanyaan tes mungkin
dapat digunakan. Jika pertanyaan-pertanyaan yang termasuk dalam tes memberikan sampel yang memadai dari
pertanyaan yang mungkin di daerah. Cara termudah untuk memperkirakan apakah tes mengukur sampel yang
memadai dari konten adalah untuk membangun dua bentuk tes dan mengkorelasikan hasil. Sebuah korelasi yang
tinggi menunjukkan bahwa kedua bentuk mengukur konten yang sama dan oleh karena itu mungkin sampel yang
dapat diandalkan dari wilayah umum konten yang diukur.
Setara-bentuk metode memperkirakan kehandalan tidak jauh dengan masalah sulit memilih interval waktu yang
tepat antara tes seperti yang diperlukan dengan metode tes-tes ulang. Namun, kebutuhan untuk dua bentuk setara
dengan tes membatasi penggunaannya hampir seluruhnya untuk pengujian standar. Berikut ini adalah banyak
digunakan, karena sebagian besar tes standar memiliki dua atau lebih bentuk yang tersedia. Bahkan, seorang guru
harus melihat dengan kecurigaan pada setiap tes standar yang memiliki dua bentuk yang tersedia dan tidak
melaporkan informasi mengenai kesetaraan mereka. Komparabilitas hasil dari dua bentuk tidak dapat diasumsikan
kecuali bukti tersebut disajikan.
Metode setara-bentuk kadang-kadang digunakan dengan interval waktu antara pemberian dua bentuk
tes. Dengan kondisi tersebut, koefisien reliabilitas yang dihasilkan memberikan ukuran stabilitas dan kesetaraan. Ini
adalah tes yang paling ketat keandalan karena mencakup semua sumber variasi dalam nilai tes. Stabilitas prosedur
pengujian, keteguhan dari murid karakteristik yang diukur, dan keterwakilan sampel tugas yang termasuk dalam
ujian semua diperhitungkan.Akibatnya, ini umumnya direkomendasikan sebagai prosedur bunyi untuk
memperkirakan keandalan skor tes. Seperti dengan. metode tes-tes ulang biasa, koefisien reliabilitas harus
ditafsirkan dalam terang interval waktu antara dua bentuk tes.Untuk periode waktu yang lebih lama, kita harus
biasanya mengharapkan koefisien reliabilitas yang lebih kecil.
4
bentuk Setara dibangun untuk set yang sama spesifikasi (misalnya, konten pengujian, kesulitan, dan sebagainya) tetapi dibangun
secara mandiri.
Membagi-Half Method. Keandalan skor tes juga dapat diperkirakan dari administrasi tunggal dari satu bentuk
tes. Tes ini diberikan kepada sekelompok siswa dengan cara biasa dan kemudian dibagi dua untuk keperluan
mencetak gol. Untuk membagi tes menjadi dua bagian yang paling setara, prosedur biasa adalah untuk mencetak
item genap dan item ganjil secara terpisah. Hal ini memberikan dua nilai untuk setiap murid yang, ketika
berkorelasi, memberikan ukuran konsistensi internal. koefisien ini menunjukkan sejauh mana kedua bagian tes
adalah sama.
Sebagaimana dicatat, koefisien reliabilitas di atas ditentukan dengan menghubungkan nilai dari dua setengahtes. Untuk memperkirakan keandalan skor berdasarkan uji full-length rumus Spearman-Brown biasanya
diterapkan. Formula ini adalah sebagai berikut:
2 X Keandalan uji%
Keandalan pada uji penuh = . , p rrrrr jrr "r
1
1 + Keandalan pada
H uji
Kesederhanaan rumus dapat dilihat dalam contoh berikut di mana koefisien korelasi antara kedua bagian dari tes
adalah .60:
n i. ui. n i , . 2 x .60 1.20 _ Keandalan pada tes penuh = ^ "^ "JGQ
".10
Koefisien korelasi ini dari 75, maka, memberikan perkiraan keandalan. dari tes penuh di mana setengah-tes
berkorelasi .60.
The split-setengah metode adalah mirip dengan metode setara-bentuk dalam hal itu menunjukkan sejauh mana
sampel item tes adalah sampel yang memadai dari konten yang diukur. Sebuah korelasi yang tinggi antara skor
pada kedua bagian tes menunjukkan kesetaraan dua bagian dan akibatnya kecukupan sampling. Namun, seperti
metode setara-bentuk, ia memberitahu apa-apa tentang perubahan individu dari satu waktu ke lain.
Kuder-Richardson Metode. Cara lain untuk memperkirakan keandalan skor tes dari administrasi tunggal dari satu
bentuk tes adalah dengan cara formula seperti yang dikembangkan oleh Kuder dan Richardson. 12 Formula ini juga
memberikan ukuran konsistensi internal , tetapi mereka tidak memerlukan pemisahan tes dalam setengah
untuk tujuan skor. Salah satu formula, yang disebut Kuder-Richardson Formula 20, didasarkan pada proporsi orang
yang lewat setiap item dan standar deviasi dari nilai keseluruhan. 0 perhitungan ini agak rumit, kecuali informasi
sudah tersedia mengenai proporsi melewati setiap item , tapi theresult sama dengan rata-rata semua splitsetengah kemungkinan koefisien untuk kelompok diuji.
Sebuah formula kurang akurat tapi lebih sederhana untuk menghitung adalah Kuder-Richardson Formula 21.
Formula ini dapat diterapkan pada hasil dari setiap tes yang telah mencetak berdasarkan jumlah jawaban yang
benar. Sebuah versi modifikasi dari formula 13 adalah hal, mereka mirip dengan metode setara-bentuk tanpa
interval waktu. Hanya prosedur tes-tes ulang menunjukkan sejauh mana hasil tes digeneralisasikan atas periode
waktu yang berbeda.
Membandingkan Metode Korelasi. Seperti tercantum dalam diskusi kami sebelumnya, masing-masing metode
estimasi reliabilitas memberikan informasi yang berbeda mengenai konsistensi hasil tes. Ringkasan informasi ini
disajikan pada Tabel 5.2. Tabel ini menjelaskan fakta bahwa sebagian besar metode yang
Keandalan Estimate (KR21) =
M ( K M ) ' Ks
Formula ini akan menghasilkan kira-kira hasil yang sama seperti Kuder-Richardson Formula 20, tetapi dalam banyak
kasus perkiraan keandalan akan lebih kecil. 14 kepala Keuntungannya adalah kemudahan yang dapat diterapkan.
Perkiraan Kuder-Richardson keandalan berasumsi bahwa item dalam tes homogen. Artinya, bahwa setiap item
tes mengukur kualitas yang sama atau karakteristik seperti setiap lainnya. Dimana asumsi ini dibenarkan, perkiraan
keandalan akan mirip dengan yang disediakan oleh metode split-half. Jika homogenitas kurang, seperti pada tes
prestasi yang mengukur berbagai jenis hasil belajar, meremehkan split-setengah reliabilitas akan menghasilkan. 15
Kesederhanaan menerapkan metode split-half dan metode Kuder-Richardson telah menyebabkan digunakan
secara luas dalam memperkirakan kehandalan. Namun, prosedur konsistensi internal seperti memiliki keterbatasan
yang membatasi nilai mereka. Pertama, mereka tidak cocok untuk dipercepat tests "untuk tes dengan batas
waktu yang mencegah murid dari mencoba setiap item. Di mana kecepatan adalah faktor yang signifikan dalam
pengujian, perkiraan keandalan akan meningkat ke tingkat yang tidak diketahui. Ini tidak menimbulkan masalah
besar dalam mengestimasi reliabilitas skor tes dari tes buatan guru, karena ini biasanya tes daya. Dalam kasus tes
standar, bagaimanapun, batas waktu jarang begitu liberal bahwa semua murid menyelesaikan tes. Dengan
demikian, ukuran konsistensi internal yang dilaporkan dalam manual tes harus umumnya diabaikan kecuali bukti
juga disajikan bahwa kecepatan kerja merupakan faktor diabaikan. Untuk tes dipercepat, reliabilitas diperoleh oleh
tes-tes ulang atau setara-bentuk metode harus dicari.
Keterbatasan kedua prosedur konsistensi internal adalah bahwa mereka tidak menunjukkan keteguhan respon
murid dari hari ke dav-In ini berkaitan dengan hanya satu atau dua jenis konsistensi dicari dalam hasil tes. Metode
tes-tes ulang, tanpa interval waktu, hanya memperhitungkan konsistensi prosedur pengujian dan keteguhan jangka
pendek respon. Jika interval waktu diperkenalkan antara tes, keteguhan karakteristik murid dari hari ke hari juga
disertakan. Namun, baik dari prosedur test-retest menyediakan informasi mengenai konsistensi hasil atas sampel
yang berbeda dari item, karena kedua set nilai didasarkan pada tes yang sama.
Setara-bentuk metode tanpa interval waktu, metode split-half, dan metode Kuder-Richardson semua
memperhitungkan konsistensi prosedur pengujian dan konsistensi hasil atas sampel yang berbeda dari item.
Hanya metode setara-bentuk dengan masa sela antara tes memperhitungkan semua tiga jenis konsistensi. Ini
adalah alasan bahwa ukuran ini stabilitas dan kesetaraan umumnya dianggap sebagai perkiraan yang paling
berguna dari uji reliabilitas.
standar deviasi. 16 Perlu dicatat bahwa sebagai keandalan koefisien meningkat, untuk setiap deviasi standar yang
diberikan, kesalahan baku pengukuran menurun. Dengan demikian, koefisien keandalan yang tinggi berhubungan
dengan kesalahan kecil dalam skor tes khusus dan koefisien reliabilitas rendah dikaitkan dengan kesalahan besar.
Jika uji manual tidak melaporkan kesalahan baku pengukuran, Tabel 5.3 dapat digunakan untuk memperkirakan
standard error. Sebenarnya ini adalah tujuan yang meja dikembangkan. Semua orang perlu lakukan untuk
mendapatkan perkiraan standard error untuk tes yang diberikan adalah memasukkan kolom dan baris terdekat
dengan koefisien keandalan dan standar deviasi dilaporkan dalam uji manual. Sebagai contoh, koefisien reliabilitas
0,92 dan deviasi standar 16 akan menghasilkan standard error sebesar 5,1. Hal ini diperoleh dengan turun kolom
kedua (.90). sampai Anda datang ke baris di mana deviasi standar 16. contoh kami mirip dengan data yang sering
dilaporkan untuk tes kecerdasan kelompok.Mengakibatkan kesalahan standar kurang lebih sama seperti yang
digunakan dalam ilustrasi kami sebelumnya dengan Mary Smith dan, tentu saja, ditafsirkan dengan cara yang
sama.
Ada beberapa tindakan pencegahan yang harus diingat ketika menggunakan Tabel 5.3 untuk memperkirakan
kesalahan baku pengukuran. Pertama, koefisien keandalan dan deviasi standar harus didasarkan pada kelompok
yang sama orang.Kedua, masuk ke meja dengan koefisien reliabilitas dan standar deviasi terdekat mereka dalam
manual memberi Anda hanya perkiraan kesalahan standar pengukuran. Ketiga, tabel tidak memperhitungkan fakta
bahwa kesalahan baku pengukuran sedikit bervariasi pada tingkat nilai yang berbeda. Dalam keterbatasan ini,
bagaimanapun, Tabel 5.3 memberikan sebuah metode yang sederhana dan cepat untuk memperkirakan kesalahan
baku pengukuran dan perkiraan yang cukup akurat untuk aplikasi yang paling praktis dari hasil tes.
Kesalahan standar pengukuran memiliki dua keunggulan khusus sebagai sarana untuk memperkirakan
kehandalan. Pertama, perkiraan dalam satuan yang sama dengan skor tes. Hal ini memungkinkan untuk langsung
menunjukkan margin of error untuk memungkinkan ketika menafsirkan nilai individu. Kedua, standard error
kemungkinan akan tetap cukup konstan saat Anda pergi dari satu kelompok ke kelompok. Hal ini tidak benar dari
koefisien reliabilitas yang sangat tergantung pada penyebaran nilai dalam kelompok diuji. Karena kelompok yang
reliabilitas dilaporkan dalam manual tes akan selalu agak berbeda dari kelompok diberikan tes, keteguhan lebih
besar dari kesalahan baku pengukuran memiliki nilai praktis yang jelas. Kesulitan utama yang dihadapi dengan
standard error terjadi ketika kita ingin membandingkan dua tes yang menggunakan berbagai jenis nilai. Berikut
koefisien reliabilitas adalah satu-satunya ukuran yang sesuai.
Faktor yang Mempengaruhi Ukuran Keandalan
Sejumlah faktor telah ditunjukkan untuk mempengaruhi tindakan konvensional keandalan. 17 Jika kesimpulan
suara harus ditarik, faktor-faktor ini harus dipertimbangkan ketika menginterpretasikan koefisien reliabilitas. Kita
telah melihat, misalnya, bahwa tes dipercepat akan memberikan koefisien reliabilitas spuriously tinggi dengan
metode konsistensi internal memperkirakan kehandalan. Kami juga telah mencatat bahwa koefisien reliabilitas testretest dipengaruhi oleh interval waktu antara pengujian, dengan interval waktu yang lebih pendek menghasilkan
koefisien keandalan yang lebih tinggi. Dengan demikian, dalam membandingkan koefisien reliabilitas dari dua atau
lebih tes kita harus mengambil faktor-faktor tersebut ke dalam rekening. Meskipun kita mungkin ingin mendukung
tes dengan koefisien reliabilitas tertinggi, kita tidak akan melakukannya jika kita mengakui bahwa koefisien
dilaporkan digelembungkan oleh faktor-faktor yang tidak relevan dengan konsistensi prosedur pengukuran,
Demikian pula, kita mungkin mendiskon perbedaan antara koefisien reliabilitas yang dilaporkan untuk dua tes yang
berbeda jika kondisi di mana mereka diperoleh disukai tes dengan koefisien reliabiliy tertinggi.
Pertimbangan faktor yang mempengaruhi keandalan tidak hanya akan membantu kita menginterpretasikan
koefisien reliabilitas tes standar yang lebih bijaksana, tetapi juga harus membantu kita dalam membangun tes kelas
norma-referenced lebih dapat diandalkan. Meskipun guru jarang menemukan menguntungkan untuk menghitung
koefisien reliabilitas untuk tes mereka membangun, mereka dapat dan harus mengambil tanggung jawab dari
faktor yang mempengaruhi keandalan untuk memaksimalkan keandalan tes kelas mereka sendiri.
Panjang Test. Secara umum, semakin lama, menguji keandalan yang lebih tinggi. Hal ini disebabkan oleh fakta
bahwa tes lagi akan memberikan contoh yang lebih memadai perilaku yang diukur dan nilai cenderung menjadi
kurang terdistorsi oleh faktor kebetulan seperti menebak. Misalkan, untuk mengukur kemampuan mengeja, kami
meminta murid untuk mengeja satu kata. Hasilnya akan dia terang-terangan tidak dapat diandalkan. Murid yang
mampu mengeja kata akan spellers sempurna dan murid yang tidak bisa akan kegagalan lengkap. Jika kita terjadi
untuk memilih kata yang sulit sebagian besar murid akan gagal; jika kata adalah salah satu yang paling mudah
murid akan muncul menjadi spellers sempurna. Fakta bahwa satu kata memberikan perkiraan yang tidak dapat
diandalkan kemampuan mengeja murid adalah jelas. Ini harus sama-sama jelas bahwa ketika kita menambahkan
kata-kata ejaan ke dalam daftar, kami datang lebih dekat dan lebih dekat dengan perkiraan yang baik dari
kemampuan mengeja setiap anak. Skor didasarkan pada sejumlah besar kata ejaan lebih cenderung untuk
mencerminkan perbedaan nyata dalam kemampuan mengeja dan karena itu akan lebih stabil. Jadi, dengan
meningkatkan ukuran sampel perilaku ejaan kita meningkatkan konsistensi pengukuran kami.
Sebuah tes lagi juga cenderung untuk mengurangi pengaruh faktor kesempatan seperti menebak. Sebagai
contoh, pada sepuluh-item tes benar-dan-salah seorang murid mungkin tahu tujuh item dan menebak tiga
lainnya. Dia bisa menebak dengan benar pada semua tiga item dan memiliki nilai sempurna atau dia bisa menebak
salah pada ketiga item dan berakhir dengan hanya tujuh yang benar. Hal ini akan mewakili variasi dalam nilai tesnya karena menebak sendiri. Namun, jika murid sama ini mengambil tes dengan seratus item benar dan salah
tebakan yang benar itu akan cenderung dibatalkan oleh tebakan yang salah, dan skor akan menjadi indikasi lebih
diandalkan pengetahuan yang sebenarnya.
Fakta bahwa tes lagi cenderung memberikan hasil yang lebih dapat diandalkan tersirat sebelumnya dalam
diskusi kita tentang metode split-setengah. Perlu diingat bahwa ketika skor dari dua bagian dari tes 'berkorelasi .60
rumus Spearman-Brown memperkirakan keandalan skor untuk tes full-length menjadi 75. Ini, tentu saja, adalah
setara dengan memperkirakan peningkatan keandalan yang diharapkan ketika panjang dari tes ini adalah dua kali
lipat.
Ada satu reservasi penting dalam mengevaluasi pengaruh panjang uji pada keandalan nilai, yaitu bahwa laporan
kami telah membuat mengasumsikan bahwa tes akan diperpanjang dengan menambahkan item tes kualitas yang
sama seperti yang sudah di uji. Menambahkan sepuluh kata ejaan yang begitu mudah sehingga setiap orang akan
membuat mereka benar atau menambahkan sepuluh kata ejaan yang begitu sulit sehingga tak seorang pun akan
membuat mereka benar tidak akan meningkatkan keandalan dari nilai pada tes ejaan norma-referenced. Bahkan
tidak akan ada pengaruh pada koefisien reliabilitas karena penambahan tersebut tidak akan mempengaruhi berdiri
relatif siswa dalam kelompok.
Dalam membangun tes kelas adalah penting untuk diingat pengaruh panjang uji pada keandalan dan berusaha
untuk tes lagi. Dimana tes pendek diperlukan karena batas waktu atau usia siswa, tes yang lebih sering dapat
digunakan untuk mendapatkan ukuran diandalkan prestasi.
Dalam menggunakan tes standar, kita harus waspada terhadap skor sebagian didasarkan pada item yang relatif
sedikit. Skor tersebut biasanya rendah dalam kehandalan dan nilai praktis sedikit atau tidak ada. Sebelum
menggunakan nilai seperti manual tes harus hati-hati diperiksa untuk reliabilitas mereka dilaporkan. Jika ini tidak
dilaporkan, atau sangat rendah, skor bagian harus diabaikan dan hanya total nilai tes harus digunakan.
Penyebaran Skor. Seperti disebutkan sebelumnya koefisien reliabilitas secara langsung dipengaruhi oleh
penyebaran skor pada kelompok diuji. Hal lain dianggap sama, semakin besar penyebaran skor, semakin tinggi
perkiraan keandalan. Karena koefisien reliabilitas lebih besar terjadi ketika individu cenderung untuk tinggal di
posisi yang relatif sama dalam kelompok, dari satu pengujian ke yang lain, secara alamiah bahwa apa pun yang
mengurangi kemungkinan pergeseran posisi dalam kelompok juga memberikan kontribusi untuk koefisien
reliabilitas lebih besar. Dalam hal ini perbedaan yang lebih besar antara nilai individu mengurangi kemungkinan
pergeseran posisi. Dengan kata lain, kesalahan pengukuran kurang berpengaruh pada posisi relatif individu di mana
perbedaan di antara anggota kelompok large "yaitu, di mana ada berbagai penyebaran skor.
Hal ini dapat dengan mudah digambarkan tanpa bantuan statistik. Bandingkan dua set berikut skor dalam hal
probabilitas bahwa individu akan tetap berada di posisi yang relatif sama pada administrasi kedua tes. Bahkan
pemeriksaan sepintas skor ini akan membuat jelas bahwa orang-orang di Grup B lebih cenderung bergeser posisi
pada pemerintahan kedua tes. Dengan hanya penyebaran sepuluh poin dari top skor dengan skor bawah,
pergeseran radikal dalam posisi dapat hasil dari perubahan hanya beberapa poin dalam nilai ujian dari orang-orang
ini.
Namun, di Grup A nilai tes individu bisa bervariasi oleh beberapa poin, administrasi kedua tes, dengan sangat
sedikit pergeseran dalam posisi relatif dari anggota kelompok. Penyebaran besar nilai tes di Grup A membuat
pergeseran dalam posisi relatif tidak mungkin, dan dengan demikian memberi kita keyakinan yang lebih besar
bahwa perbedaan-perbedaan di antara anggota kelompok perbedaan nyata.
Grup A
Grup B
95
95
90
94
86
93
82
93
76
92
65
91
60
89
56
88
53
86
47
85
Ketika membangun tes penguasaan kriteria-direferensikan, penyebaran nilai tidak relevan karena kita berharap
bahwa semua, atau hampir semua, murid akan mendapatkan nilai sempurna. Ketika mengukur sejauh mana siswa
telah berkembang melampaui penting minimum tentu saja, namun, kami harus berusaha untuk membangun tes
kelas norma-referenced yang dihasilkan Dalam berbagai penyebaran skor. Dengan cara ini kita dapat memiliki
jaminan yang lebih besar bahwa perbedaan dalam perkembangan murid (di luar tingkat penguasaan)
mencerminkan perbedaan diandalkan dalam prestasi dan bukan perbedaan karena faktor kebetulan seperti
menebak. Untuk mendapatkan penyebaran lebih luas nilai tes, sebagian besar guru perlu membangun lebih sulit
tes norma-referenced. Ini biasanya harus dilakukan dengan menekankan pengukuran yang lebih kompleks hasil
belajar (misalnya, transfer, pemecahan masalah). Prosedur tersebut akan cenderung untuk meningkatkan
keandalan skor tes dan pada saat yang sama memiliki pengaruh positif pada validitas. Sewenang-wenang
memanipulasi kata-kata dari item tes, hanya untuk membuat mereka lebih sulit, kemungkinan akan menghasilkan
peningkatan keandalan dengan mengorbankan validitas.
Dalam memilih tes standar, pengaruh penyebaran skor tes pada koefisien reliabilitas juga harus
dipertimbangkan. Sebagai contoh, banyak penerbit uji melaporkan koefisien reliabilitas dihitung berdasarkan nilai
tes selama beberapa tingkatan kelas. Karena skor gabungan murid dari beberapa tingkatan kelas memiliki
penyebaran yang jauh lebih besar dari nilai daripada yang ditemukan pada tingkat kelas tunggal, koefisien
reliabilitas tersebut spuriously tinggi. Koefisien reliabilitas ini harus diabaikan ketika memilih tes untuk tingkat kelas
tertentu. Setiap upaya harus dilakukan untuk mendapatkan bukti keandalan pada sekelompok murid serupa dengan
yang kami berencana untuk mengelola tes. Hanya dengan cara ini kita dapat memiliki beberapa jaminan bahwa
koefisien reliabilitas yang dilaporkan dalam uji manual memberikan perkiraan memuaskan keandalan tes untuk
kelompok tertentu kami murid.
Kesulitan Test. Tes Norm-referenced yang terlalu mudah atau terlalu sulit bagi anggota kelompok mengambil
akan cenderung memberikan nilai keandalan rendah. Hal ini disebabkan oleh fakta bahwa tes mudah dan sulit
menghasilkan penyebaran terbatas skor. Dalam kasus tes mudah, skor yang berdekatan di ujung atas
skala. Dengan ujian yang sulit, skor dikelompokkan bersama-sama di ujung bawah skala. Untuk keduanya, namun,
perbedaan antara individu-individu yang kecil dan cenderung tidak bisa diandalkan. Sebuah tes mengacu-norma
kesulitan yang ideal akan mengizinkan skor untuk tersebar di berbagai skala, seperti yang ditunjukkan pada
Gambar 5.1.
Berarti Rentang
Keandalan perkiraan
Implikasi untuk pengujian kelas yang jelas dan disinggung dalam bagian sebelumnya. Tes prestasi kelas yang
dirancang untuk
GAMBAR 5.1. Perbandingan hipotetis distribusi skor tes dan estimasi koefisien reliabilitas untuk tes norma-referenced 100
butir. (Keandalan dihitung dengan rumus KR21 asumsi yang wajar standar deviasi.) perbedaan ukuran antara murid (norma-
referenced) harus dikonstruksi sedemikian sehingga skor rata-rata adalah 50 persen benar dan bahwa skor berkisar
dari mendekati nol hingga mendekati sempurna. Sebenarnya, 50 persen yang benar hanya berlaku untuk pendekjawaban jenis item. Untuk pemilihan jenis item, skor rata-rata yang ideal akan lebih tinggi, karena sebagian dari
barang-barang yang bisa menjawab dengan benar menebak. Pada tes benar-salah, misalnya, siswa dapat
diharapkan untuk mendapatkan 50 persen dari barang-barang yang benar dengan menebak (skor kesempatan),
dan pada tes pilihan ganda lima pilihan skor kesempatan diharapkan akan menjadi 20 persen yang benar (satu dari
lima). Kita bisa memperkirakan kesulitan rata-rata ideal untuk seleksi tipe dengan mengambil titik tengah antara
skor kesempatan yang diharapkan dan skor maksimum yang mungkin. Dengan demikian, untuk 100 soal tes benarsalah kesulitan rata-rata ideal akan 75 (pertengahan antara 50 dan 100), dan untuk 100 butir lima pilihan tes
pilihan ganda kesulitan rata-rata ideal akan 60 (pertengahan antara 20 dan 100 ). Membangun tes yang cocok ini
tingkat ideal kesulitan memungkinkan berbagai macam nilai yang mungkin untuk digunakan dalam mengukur
perbedaan antara individu. Seperti disebutkan sebelumnya, semakin besar penyebaran skor, semakin besar
kemungkinan bahwa perbedaan diukur dapat diandalkan.
Kesulitan item tes dalam tes standar juga harus hati-hati dievaluasi. Dimana tes telah dirancang untuk beberapa
tingkatan kelas tingkat kesulitan biasanya paling tepat untuk nilai di tengah-tengah rentang. Tes mungkin agak
terlalu sulit untuk tingkat kelas terendah dan sedikit terlalu mudah untuk tingkat kelas tertinggi. Dengan demikian,
pada tingkatan kelas ekstrim yang biasanya dapat mengharapkan perbedaan antara individu-individu menjadi
kurang dapat diandalkan. Informasi yang berkaitan dengan kesulitan tes, di masing-masing tingkatan kelas yang ia
dirancang, biasanya dapat diperoleh dari uji manual.
Dalam mengevaluasi kesulitan tes standar guru juga harus memperhitungkan tingkat kemampuan muridmuridnya. Sebuah tes yang kesulitan sesuai untuk rata-rata siswa kelas lima mungkin tidak sesuai untuk kelas lima
yang mengandung jumlah yang tidak proporsional dari peserta didik lambat atau murid berbakat. Kesulitan lebih
tepat untuk kelompok tertentu sering dapat diperoleh dengan menggunakan tes yang dirancang untuk terendah
berikutnya atau kelas tertinggi berikutnya.
Objektivitas. Objektivitas tes mengacu pada sejauh mana skor sama kompeten memperoleh hasil yang
sama. Sebagian besar tes standar kecerdasan dan prestasi yang tinggi objektivitas. Item tes adalah dari jenis
tujuan (misalnya, pilihan ganda), dan skor yang dihasilkan tidak dipengaruhi oleh pertimbangan atau pendapat
pencetak gol. Bahkan, tes tersebut biasanya dibangun sehingga mereka dapat secara akurat dicetak oleh pegawai
terlatih dan mesin mencetak gol. Dimana prosedur yang sangat obyektif tersebut digunakan keandalan hasil tes
tidak terpengaruh oleh prosedur penilaian.
Dalam kasus tes kelas dibangun oleh guru, namun, objektivitas mungkin memainkan peran penting dalam
memperoleh langkah-langkah yang dapat diandalkan prestasi. Dalam pengujian esai, serta dalam penggunaan
berbagai observasional
1.
2.
3.
4.
Split-setengah metode
5.
Metode Kuder-Richardson
Biasanya memberikan menengah sampai besar koefisien reliabilitas untuk tes yang diberikan. Mungkin lebih besar
dari split-setengah metode jika interval waktu yang singkat. Koefisien menjadi lebih kecil sebagai interval waktu
antara tes meningkat.
Biasanya memberikan menengah sampai besar koefisien reliabilitas untuk tes yang diberikan. Cenderung lebih
rendah dibandingkan dengan metode tes-tes ulang menggunakan selang waktu singkat.
Biasanya menyediakan terkecil koefisien reliabilitas untuk tes yang diberikan. Koefisien menjadi lebih kecil sebagai
interval waktu antara tes meningkat.
Biasanya menyediakan terbesar koefisien reliabilitas untuk tes yang diberikan. Perkiraan spuriously tinggi
diproduksi untuk tes dipercepat.
Biasanya memberikan perkiraan keandalan yang lebih kecil dari yang diperoleh oleh split-half method. Perkiraan ini
juga digelembungkan oleh kecepatan.
Variasi dalam ukuran koefisien reliabilitas karena metode memperkirakan keandalan terkait secara langsung
dengan jenis konsistensi yang termasuk dalam masing-masing metode. Perlu diingat bahwa metode setara-bentuk
dengan interval waktu intervensi memperhitungkan semua sumber variasi dalam nilai tes dan akibatnya adalah
metode yang paling ketat memperkirakan kehandalan. Dengan demikian, koefisien reliabilitas yang lebih kecil
dapat diharapkan dengan metode ini, dan itu sangat tidak adil untuk membuat perbandingan langsung dari
koefisien reliabilitas tersebut dengan yang diperoleh dengan metode kurang ketat.
Pada ekstrem yang lain, koefisien reliabilitas yang lebih besar biasanya dilaporkan untuk metode split-half harus
diterima dengan hati-hati. Jika kecepatan merupakan faktor penting dalam pengujian, split-setengah koefisien
reliabilitas harus diabaikan seluruhnya dan bukti lain keandalan harus dicari.
Keandalan Criterion-Referenced Penguasaan Tes
Bila menggunakan tes penguasaan kriteria-direferensikan, keinginan kita untuk konsistensi pengukuran adalah
sama dengan yang untuk tes norma-referenced. Jadi, kami ingin kinerja seseorang menjadi (1) konsisten dari satu
item ke yang lain, di mana semua item yang mengukur hasil belajar yang sama (konsistensi internal), ( 2 ) konsisten
dari satu waktu ke yang lain, di mana hasil pembelajaran diharapkan memiliki tingkat yang wajar keteguhan
(stabilitas); dan ( 3 ) konsisten dari satu bentuk tes yang lain, di mana bentuk-bentuk dimaksudkan untuk mengukur
sampel yang sama dari tugas-tugas belajar (kesetaraan). Sayangnya, kemampuan kita untuk memperkirakan jenis
konsistensi tidak cocok kebutuhan kita akan informasi tersebut. Sejak tes penguasaan kriteria-direferensikan tidak
dirancang untuk membedakan antara individu-individu, dan dengan demikian variabilitas tidak perlu hadir dalam
skor, perkiraan korelasional tradisional kehandalan adalah tidak pantas.Ada berbagai upaya untuk mengembangkan
langkah-langkah statistik untuk memperkirakan keandalan tes penguasaan kriteria-direferensikan, tetapi solusi
yang memuaskan belum tercapai. 18
Bila menggunakan tes penguasaan kriteria-direferensikan dalam instruksi kelas, kita dapat meningkatkan
kemungkinan hasil yang dapat diandalkan dengan menggunakan sampel yang cukup besar item tes untuk setiap
hasil belajar yang akan diukur. Jika hasilnya sangat spesifik dan sangat terstruktur (misalnya, menambahkan dua
angka satu digit), jumlah yang relatif kecil item (katakanlah lima) mungkin cukup untuk penghakiman diandalkan
mengenai penguasaan. Untuk sebagian besar keputusan penguasaan-nonmastery Namun, sepuluh item untuk
setiap hasil belajar spesifik akan menyediakan minimal lebih diinginkan. Dimana keputusan instruksional
didasarkan pada kurang dari sepuluh item, kita harus membuat keputusan hanya tentatif
dan mencari verifikasi dari data lain yang tersedia dan dari observasi kelas.
How High Haruskah Keandalan Be?
Tingkat keandalan kami menuntut dalam langkah-langkah pendidikan kita sangat tergantung pada sifat dari
keputusan yang akan dibuat. Jika kita akan menggunakan hasil tes sebagai dasar untuk memutuskan apakah akan
meninjau daerah-daerah tertentu dari materi pelajaran, kita mungkin bersedia untuk 1 menggunakan tes buatan
guru keandalan diketahui. Keputusan kami akan didasarkan pada nilai dari total kelompok, dan inkonsistensi dalam
nilai individu tidak akan mendistorsi keputusan kami terlalu banyak. Bahkan jika kita keliru dalam keputusan kami,
tidak ada bencana besar akan menghasilkan. Yang terburuk yang bisa terjadi adalah bahwa siswa akan
mendapatkan review yang tidak perlu bahan, atau mereka akan kehilangan review yang mungkin akan bermanfaat
bagi mereka. Di sisi lain, jika kita akan menggunakan hasil tes sebagai dasar untuk memutuskan mana siswa harus
ditempatkan di kelas khusus untuk cacat mental kita akan menuntut pengukuran paling dapat diandalkan
tersedia. Kita tidak akan puas dengan tes kelompok intelijen untuk tujuan ini tetapi ingin menggunakan salah satu
dari tindakan individu lebih dapat diandalkan kecerdasan. Kita mungkin juga ingin memperoleh bukti yang paling
dapat diandalkan tersedia mengenai murid yang belajar, pembangunan sosial, dan penyesuaian sebelum
keputusan akhir dibuat. Keputusan ini sangat penting dan konsekuensi signifikan sehingga kita bersedia untuk
mencurahkan waktu dan biaya untuk meningkatkan keandalan data kami bahkan jika kenaikan tersebut
sedikit. Kami ingin menjadi percaya diri sebagai mungkin bahwa kami akan membuat keputusan yang tepat ketika
kita menempatkan murid di kelas khusus untuk cacat mental.
Hal ini tidak hanya pentingnya keputusan yang penting, tetapi juga apakah mungkin untuk mengkonfirmasi atau
membalikkan penghakiman di lain waktu. 19 Pengambilan keputusan dalam pendidikan jarang tunggal, tindakan
terakhir. Ini cenderung berurutan di alam, dimulai dengan penilaian agak kasar dan melanjutkan melalui
serangkaian penilaian yang lebih halus. Pada tahap awal pengambilan keputusan keandalan rendah mungkin cukup
lumayan, karena hasil tes yang digunakan terutama sebagai panduan untuk mengumpulkan informasi lebih
lanjut. Sebagai contoh, berdasarkan tes kelas keandalan dipertanyakan kita mungkin memutuskan bahwa beberapa
murid kami mengalami kesulitan belajar seperti yang bersifat serius yang mereka membutuhkan bantuan
khusus. Keputusan ini memberikan firasat yang berguna yang dapat dikonfirmasi atau disangkal oleh pengujian
lebih lanjut dengan langkah-langkah lebih diandalkan. Demikian pula, inventarisasi kepribadian keandalan rendah
mungkin berguna sebagai langkah pertama dalam mendeteksi murid maladjusted, menyediakan mereka dengan
skor yang menunjukkan kemungkinan ketidakmampuan diikuti oleh penelitian yang lebih intensif. Juga, kelompok
skor bakat skolastik hanya stabilitas moderat mungkin berguna dalam pengelompokan murid SD, karena mereka
yang kesalahan klasifikasi dapat dengan mudah bergeser sebagai bukti baru telah tersedia. Peluang untuk
konfirmasi dan pembalikan penilaian tanpa konsekuensi serius hampir selalu hadir d i tahap awal pengambilan
keputusan pendidikan.
Yang penting ketika keandalan rendah, atau tidak dikenal, bukan untuk mengobati skor seolah-olah mereka
sangat akurat. Membuat penilaian tentatif, mencari konfirmasi data, dan bersedia untuk membalikkan keputusan
ketika salah.Beberapa modifikasi dalam kebijakan sekolah juga mungkin diperlukan. Jika, misalnya, kemampuan
mental terbukti menjadi tidak stabil sampai enam belas usia, seseorang tidak harus mengadopsi kebijakan
klasifikasi yang membuat keputusan tentang siapa yang akan berencana untuk pergi ke perguruan tinggi pada usia
sebelas tahun. Singkatnya, nilai tes keandalan rendah dapat berguna jika mereka ditafsirkan dengan hati-hati dan
hanya digunakan untuk keputusan reversibel tentatif. 20
Dimana keputusan ireversibel akhir sedang dilakukan, kita akan, tentu saja, terdorong untuk mencari informasi
yang paling dapat diandalkan tersedia. Kami tidak ingin beasiswa penghargaan, menolak pelamar perguruan tinggi,
atau melakukan seseorang ke rumah sakit jiwa atas dasar langkah-langkah dengan keandalan rendah atau
dipertanyakan.
Jadi, ketika kami meminta question tersebut "Seberapa tinggi seharusnya menjadi keandalan? " beberapa
pertimbangan harus diperhitungkan. Seberapa penting adalah keputusan? Apakah yang dapat dikonfirmasi atau
terbalik di lain waktu? Seberapa jauh mencapai yang konsekuensi dari tindakan yang diambil? Untuk keputusan
penting yang ireversibel dan cenderung memiliki pengaruh besar pada kehidupan murid individual, kita akan
membuat tuntutan ketat pada keandalan dari langkah-langkah yang kita gunakan. Untuk keputusan yang lebih
rendah, dan terutama bagi mereka yang dapat kemudian dikonfirmasi atau terbalik tanpa konsekuensi serius, kami
akan bersedia menerima tindakan kurang dapat diandalkan. Dengan demikian, tergantung pada seberapa yakin
kita perlu tentang keputusan yang dibuat. Keyakinan yang lebih besar memerlukan keandalan yang lebih tinggi.
USABILITY
Dalam memilih instrumen evaluasi, pertimbangan praktis tidak dapat diabaikan. Tes biasanya diberikan dan
diinterpretasikan oleh guru dengan hanya jumlah minimum pelatihan dalam pengukuran. Waktu yang tersedia
untuk pengujian hampir selalu terbatas dan dalam kompetisi konstan dengan kegiatan penting lainnya untuk waktu
yang diberikan dalam jadwal sekolah. Demikian juga, biaya pengujian, meskipun pertimbangan minor, adalah
sebagai hati-hati diteliti oleh administrator anggaran-sadar seperti pengeluaran dana lain sekolah. Ini dan faktorfaktor lain yang berkaitan dengan oL kegunaan tes dan prosedur evaluasi harus diperhitungkan ketika memilih
instrumen evaluasi. Pertimbangan praktis seperti ini terutama relevan dalam memilih tes standar untuk program
pengujian sekolah-lebar.
Kemudahan Administrasi
Dimana tes yang akan diberikan oleh guru atau orang lain dengan pelatihan terbatas, kemudahan administrasi
adalah kualitas sangat penting untuk mencari dalam uji coba. Untuk tujuan ini arah harus sederhana dan jelas,
subyek harus relatif sedikit, dan waktu tes seharusnya tidak terlalu sulit. Penyelenggara tes dengan arah yang
rumit dan sejumlah subyek kekal tetapi beberapa menit masing-masing adalah tugas berat untuk bahkan
pemeriksa berpengalaman. Untuk orang dengan little'training dan pengalaman, situasi seperti ini penuh dengan
kemungkinan kesalahan dalam memberikan arah, waktu, dan aspek lain dari administrasi yang mungkin
mempengaruhi hasil. Seperti kesalahan administrasi harus, tentu saja, efek buruk pada validitas dan reliabilitas
skor tes yang dihasilkan.
Waktu yang diperlukan untuk Administrasi
Dengan waktu untuk pengujian pada premium, kita akan selalu mendukung tes lebih pendek, hal lain dianggap
sama. Dalam hal ini hal-hal lain yang jarang sama, namun, karena keandalan secara langsung berhubungan dengan
panjang tes.Jika kita mencoba untuk mengurangi terlalu banyak pada waktu yang dialokasikan untuk pengujian kita
cenderung untuk mengurangi secara drastis keandalan nilai kami. Misalnya, tes dirancang untuk memenuhi periode
kelas normal biasanya menyediakan skor total tes rehability memuaskan, tetapi skor bagian mereka, diperoleh dari
subyek, cenderung dapat diandalkan. Jika kita ingin langkah-langkah yang dapat diandalkan di wilayah yang
dicakup oleh subyek, kita perlu meningkatkan waktu pengujian kami di daerah masing-masing. Di sisi lain, jika kita
ingin ukuran umum di beberapa daerah, seperti kecerdasan verbal, kita dapat memperoleh hasil yang dapat
diandalkan dalam 30 atau 40 menit dan ada sedikit keuntungan dalam memperpanjang waktu pengujian. Sebuah
prosedur yang aman adalah untuk membagikan waktu sebanyak yang diperlukan untuk mendapatkan hasil yang
valid dan reliabel dan tidak lebih. Di suatu tempat antara 20 dan 60 menit dari waktu pengujian untuk masingmasing skor individu yang dihasilkan oleh tes standar mungkin merupakan panduan yang cukup baik.
Kemudahan Scoring
Secara tradisional, salah satu aspek yang paling membosankan dan menyusahkan dari program pengujian
sekolah telah menjadi skor tes. Di masa lalu, banyak guru yang bekerja terlalu keras telah menghabiskan berjamjam di tugas ini. Untuk membuat prosedur bahkan lebih memberatkan daripada perlu, arah scoring yang sering
rumit, tes berisi berbagai subyek dan beberapa item tes subyektif, dan tombol scoring yang rumit. Meskipun skor
tes masih merupakan masalah yang harus diperhitungkan, perkembangan terakhir dalam pengujian telah mereda
beban
jauh. Perkembangan
ini
meliputi (1) kecenderungan
menuju
tes
standar
benar-benar
objektif, ( 2 ) meningkatkan kejelasan dalam petunjuk untuk mencetak gol dan meningkatkan kesederhanaan dalam
kunci scoring, ( 3 ) penggunaan lembar jawaban yang terpisah, dan (4) mesin gol.
Dalam memilih tes standar, mereka yang membutuhkan jumlah minimal waktu, keterampilan, dan biaya untuk
penilaian harus diberikan preferensi. Penggunaan lembar jawaban yang terpisah, misalnya, tidak hanya akan
memberikan kontribusi untuk kemudahan mencetak gol, tetapi juga akan mengurangi biaya pengujian karena fakta
bahwa buklet pengujian yang sama dapat digunakan lagi beberapa kali. Selain itu, jika mesin gol tersedia dengan
biaya yang wajar, lembar jawaban yang terpisah bisa meringankan guru dari tugas ulama menjengkelkan. Faktorfaktor tersebut harus diperhitungkan pada saat tes ini sedang dievaluasi, dan tidak ada tes harus dipilih sampai
ketentuan penilaian telah diberikan pemikiran yang mendalam. Hal lain dianggap sama, kita akan mendukung tes
yang memberikan kemudahan dan ekonomi dari skor tanpa mengorbankan akurasi mencetak gol.
Kemudahan Interpretasi dan Aplikasi
Dalam analisis akhir, keberhasilan atau kegagalan program pengujian ditentukan oleh penggunaan yang terbuat
dari hasil tes. Jika mereka diinterpretasikan dengan benar dan diterapkan secara efektif mereka akan memberikan
kontribusi untuk keputusan pendidikan yang lebih cerdas. Di sisi lain, jika hasil tes salah ditafsirkan atau
disalahgunakan atau tidak diterapkan pada semua mereka akan memiliki nilai yang kecil dan benar-benar dapat
membahayakan beberapa individu atau kelompok.
Informasi yang menyangkut interpretasi dan penggunaan hasil tes biasanya diperoleh langsung dari uji manual
atau panduan yang terkait. Perhatian harus diarahkan kemudahan yang skor mentah dapat dikonversi menjadi nilai
yang berarti diturunkan, kejelasan dengan yang tabel norma disajikan, dan kelengkapan saran untuk menerapkan
hasil untuk masalah pendidikan. Dimana hasil tes akan disampaikan kepada murid, atau orang tua mereka,
kemudahan interpretasi dan aplikasi harus diberikan pertimbangan khusus.
Ketersediaan Setara atau Sebanding Formulir
Bagi banyak tujuan pendidikan setara bentuk tes yang sama sering diinginkan. Bentuk setara dari tes mengukur
aspek perilaku yang sama dengan menggunakan item tes yang sama dalam isi, tingkat kesulitan, dan karakteristik
penting lainnya.Dengan demikian, salah satu bentuk tes dapat menggantikan yang lain. Hal ini memungkinkan
untuk menguji murid dua kali dalam suksesi agak dekat tanpa jawaban mereka pada pengujian pertama
mempengaruhi kinerja mereka pada tes kedua. Keuntungan dari bentuk setara yang mudah terlihat dalam studi
gain prestasi. Di sini kita ingin menghilangkan faktor memori saat menguji murid dua kali di daerah yang sama
prestasi. Bentuk setara dari tes juga dapat digunakan untuk memverifikasi skor tes dipertanyakan. Sebagai contoh,
seorang guru mungkin merasa bahwa bakat atau prestasi skor tes skolastik terlalu rendah untuk murid tertentu. Hal
ini dapat dengan mudah diperiksa dengan pemberian bentuk setara tes.
Banyak tes juga menyediakan sebanding bentuk. Tes prestasi, misalnya, biasanya diatur dalam serangkaian
yang meliputi tingkat kelas yang berbeda. Meskipun isi dan tingkat kesulitan bervariasi, tes pada tingkat yang
berbeda dibuat sebanding dengan skala skor umum. Dengan demikian, adalah mungkin untuk membandingkan
pengukuran di kelas empat dengan pengukuran di kelas enam pada bentuk yang lebih maju dari tes. Bentuk
Sebanding sangat berguna dalam studi jangka panjang pertumbuhan pendidikan.
Biaya
Faktor biaya telah diserahkan kepada yang terakhir karena relatif tidak penting dalam memilih tes. Alasan untuk
membahas sama sekali adalah bahwa kadang-kadang diberikan jauh lebih berat daripada yang layak. Pengujian
relatif murah, dan biaya seharusnya tidak menjadi pertimbangan utama. Dalam program pengujian skala besar di
mana tabungan kecil per murid menambahkan, dengan menggunakan lembar jawaban yang terpisah, mesin gol,
dan booklet dapat digunakan kembali akan mengurangi biaya lumayan. Untuk memilih salah satu tes bukan yang
lain, namun, karena buku uji adalah beberapa sen lebih murah adalah ekonomi palsu. Setelah semua, validitas dan
reliabilitas adalah karakteristik penting untuk mencari, dan tes kurang dalam kualitas ini terlalu mahal dengan
harga apapun. Di sisi lain, kontribusi yang nilai tes yang valid dan dapat diandalkan dapat membuat keputusan
pendidikan tampaknya menunjukkan bahwa tes tersebut selalu ekonomis dalam jangka panjang.
RINGKASAN
Sebelah validitas, reliabilitas adalah kualitas yang paling penting untuk mencari dalam hasil evaluasi. Keandalan
mengacu pada bagaimana skor tes konsisten dan hasil evaluasi lainnya adalah dari satu pengukuran ke yang
lain. Dalam menafsirkan dan menggunakan informasi kehandalan, penting untuk diingat bahwa perkiraan
keandalan mengacu pada hasil pengukuran, bahwa cara-cara yang berbeda untuk memperkirakan keandalan
menunjukkan berbagai jenis konsistensi, bahwa suatu ukuran yang andal tidak selalu berlaku, dan kehandalan yang
terutama statistik konsep. Estimasi reliabilitas dapat dilaporkan dalam hal koefisien reliabilitas atau kesalahan baku
pengukuran.
Koefisien reliabilitas ditentukan dengan beberapa metode yang berbeda dan masing-masing metode
memberikan ukuran yang berbeda dari konsistensi. Metode tes-tes ulang melibatkan pemberian tes yang sama dua
kali untuk kelompok yang sama dengan interval waktu intervensi, dan koefisien yang dihasilkan memberikan
ukuran stabilitas. Berapa lama interval waktu harus antara tes ditentukan terutama oleh penggunaan harus terbuat
dari hasilnya. Kami akan terutama tertarik pada koefisien reliabilitas berdasarkan interval sebanding dengan
periode w a k t u y a n g tercakup dalam prediksi kami. Metode setara-bentuk melibatkan pemberian dua bentuk tes
untuk kelompok yang sama dalam suksesi dekat atau dengan interval waktu intervensi. Hasil pertama dalam
ukuran kesetaraan, dan yang kedua, dalam ukuran stabilitas dan kesetaraan. Yang terakhir prosedur menyediakan
tes yang paling ketat keandalan, karena mencakup semua sumber variasi dalam skor tes.Keandalan juga dapat
diperkirakan dari administrasi tunggal dari satu bentuk tes, baik dengan menghubungkan skor pada dua bagian dari
tes atau dengan menerapkan salah satu formula Kuder-Richardson. Kedua metode memberikan ukurankonsistensi
internal dan mudah diterapkan. Namun, mereka tidak berlaku untuk tes dipercepat, dan mereka tidak memberikan
informasi mengenai stabilitas nilai tes dari hari ke hari.
Kesalahan standar pengukuran menunjukkan kehandalan dalam hal jumlah variasi yang diharapkan dalam skor
tes individu. Hal ini dapat dihitung dari koefisien keandalan dan standar deviasi, tetapi sering dilaporkan langsung
dalam manual tes. Standard error ini sangat berguna dalam menafsirkan hasil tes, karena menunjukkan "band
kesalahan" yang mengelilingi setiap skor. Hal ini juga memiliki keuntungan yang tersisa cukup konstan dari satu
kelompok ke kelompok.
Estimasi reliabilitas dapat bervariasi sesuai dengan panjang tes, penyebaran skor pada kelompok diuji, kesulitan
tes, objektivitas skor, dan metode estimasi reliabilitas. Faktor-faktor ini harus diperhitungkan ketika menilai
keandalan informasi.Tingkat dan jenis reliabilitas harus dicari dalam contoh tertentu terutama tergantung pada
keputusan yang dibuat. Untuk keputusan reversibel tentatif keandalan rendah mungkin ditoleransi. Namun, untuk
keputusan ireversibel akhir kita harus membuat tuntutan ketat pada keandalan tindakan kita.
Langkah-langkah konvensional reliabilitas didasarkan pada variabilitas antar skor. Karena variabilitas skor tidak
relevan untuk tes kriteria-direferensikan (yaitu, semua bisa mendapatkan nilai sempurna), cara konvensional untuk
memperkirakan kehandalan yang tidak pantas. Sayangnya, bagaimanapun, teknik khusus disesuaikan tes
penguasaan untuk kriteria-direferensikan belum dikembangkan secara memadai. Ketika digunakan dalam pengujian
kelas, keandalan tes tersebut dapat ditingkatkan dengan menggunakan jumlah yang cukup besar item tes (sepuluh
atau lebih) untuk setiap hasil belajar tertentu yang akan diukur.
Selain validitas dan reliabilitas mereka, juga penting untuk mempertimbangkan kegunaan dari tes dan
instrumen evaluasi lainnya. Ini termasuk fitur praktis seperti kemudahan administrasi, waktu yang dibutuhkan,
kemudahan mencetak, kemudahan interpretasi dan aplikasi, ketersediaan bentuk setara atau sebanding, dan biaya.
BELAJAR LATIHAN
1.
Bandingkan validitas dan reliabilitas berkaitan dengan (a) arti dari setiap konsep, (b) kepentingan relatif
dari masing-masing dalam proses evaluasi, dan (c) sejauh mana masing-masing tergantung pada kehadiran yang
lain.
2.
Yang metode khusus untuk memperkirakan keandalan akan memberikan informasi yang paling berguna
b.
c.
d.
3. Apa
pengaruh
akan
berikut
kemungkinan
besar
memiliki
tes mengacu-norma?
a.
b.
Menghapus item yang begitu sederhana semua murid bisa menjawab dengan benar.
pada
keandalan
c.
d.
Mengubah dari tes pilihan ganda untuk tes esai yang mencakup sama
material.
4.
Berapakah nilai relatif dari menggunakan kesalahan baku pengukuran atau koefisien reliabilitas untuk
mengekspresikan keandalan skor tes? Untuk yang bertujuan masing-masing paling berguna?
5.
Menggunakan Tabel 5.3, menentukan kesalahan baku pengukuran untuk satu set nilai tes dengan standar
6.
Pelajari bagian keandalan manual tes untuk beberapa tes bakat skolastik. Apa jenis data keandalan
dilaporkan? Dari apa nilai adalah jenis data dalam memutuskan apakah akan memilih tes?
7.
Konsultasikan bagian keandalan Standar Pendidikan dan Tes Psikologi (lihat daftar bacaan untuk bab ini)
dan meninjau jenis informasi yang manual tes harus berisi. Bandingkan manual tes baru-baru terhadap Standar.
8.
Dalam meninjau data keandalan dalam uji manual guru mencatat koefisien reliabilitas berikut:
a.
Korelasi Formulir A nilai tes selama suatu interval satu bulan = .90.
b. Korelasi Form A dengan Form B nilai tes selama suatu interval satu bulan
= .85
c. Korelasi skor tes didasarkan pada dua bagian (ganjil-genap) Formulir A
= .95.
Bagaimana Anda menjelaskan perbedaan-perbedaan dalam koefisien reliabilitas (menganggap bahwa
kelompok-kelompok yang diuji sama)? Yang estimasi reliabilitas memberikan informasi yang paling
berguna? Mengapa?
9. Daftar dan jelaskan secara singkat sebagai banyak hal yang Anda bisa memikirkan bahwa kelas
guru
yang
mungkin
dilakukan
untuk
meningkatkan
keandalan
kelas
norma-referenced
nya
PART
ii
American Psychological Association, Standar Pendidikan dan Tes Psikologi (Washington, DC: APA, 1974).
Koefisien korelasi juga dapat ditentukan dengan teknik momen-produk yang lebih mudah untuk diterapkan ke kelompok
Sebuah koefisien "1.00 juga akan memberi kita prediksi yang sempurna dari satu variabel yang lain tetapi dalam
pengukuran pendidikan kita yang paling sering berkaitan dengan hubungan yang positif.
L. J. Cronbach, Essentials of Psychological Testing, 3rd ed. (New York-Harper dan Row, 1970).
LJ Cronbach dan PE Meehl, "Membangun Validitas dalam Tes Psikologi," Psychological Bulletin, 52, 281-302, 1955.
7Do tidak membingungkan kriteria-direferensikan pengujian dan kriteria-terkait validitas. Kriteria di bekas mengacu pada
jenis perilaku (seperti yang dijelaskan dalam instructional'objectives) bahwa nilai tes mewakili. Kriteria di kedua mengacu pada
beberapa ukuran kedua kinerja yang nilai tes adalah untuk memprediksi atau memperkirakan.
8
WJ Popham dan TR Husek, "Implikasi dari Criterion-Referenced Measurement," di WJ Popham (ed.), Kriteria-Referensi
Amerika Psvchological Association, Standar Pendidikan dan Tes Psikologi (Washington, DC: APA, 1974).
Test-Retest Method. Untuk memperkirakan keandalan dengan menggunakan metode tes-tes ulang tes yang sama
diberikan dua kali untuk kelompok yang sama murid dengan interval waktu tertentu antara dua administrasi
tes. Hasil skor tes berkorelasi, dan koefisien korelasi ini memberikan ukuran stabilitas; yaitu, ini menunjukkan
seberapa stabil hasil tes selama periode waktu tertentu. Jika hasilnya sangat stabil, mereka murid yang tinggi pada
salah satu administrasi tes akan cenderung tinggi pada administrasi lain dari tes, dan siswa yang tersisa akan
cenderung untuk tinggal di posisi relatif sama mereka pada kedua administrasi tes . Stabilitas tersebut akan
ditunjukkan dengan koefisien korelasi yang besar.
12 J. C. Stanley, "Keandalan," di RL Thorndike (ed.), Pendidikan Pengukuran (Washington, DC: American Council on Education,
1971).
0
Standar deviasi adalah ukuran penyebaran skor. Lihat Lampiran A untuk metode komputasi.
13
LJ Cronbach, Essentials o f Psychological Testing, 3rd ed. (New York: Harper dan Row, 1970).
14
LJ Cronbach, Essentials o f Psychological Testing, 3rd ed. (New York: Harper dan Row, 1970).
15
Konsistensi internal juga dapat ditentukan oleh koefisien alpha dan analisis d a r i
16
Standar deviasi adalah ukuran penyebaran skor. Lihat Lampiran A untuk metode komputasi.
17
Seperti disebutkan sebelumnya, langkah-langkah ini terutama berguna dengan norma-referenced tes, di mana tujuannya
RK Hambleton dan MR Novick, "Menuju Integrasi Teori dan Metode Pengujian Kriteria-Referenced," Journal o f Educational
Tes Guru buatan umumnya memiliki reliabilitas suatu tempat antara .60 dan .85, misalnya, tetapi ini berguna untuk jenis