Bahan ujian atau soal yang bermutu baik dapat
membantu para guru, tutor, pengawas, atau dosen dalam meningkatkan pelaksanaan
proses belajar-mengajar. Soal yang bermutu baik dapat memberikan informasi
dengan tepat tentang peserta didik mana yang belum atau sudah mencapai
kompetensi. Salah satu ciri soal yang bermutu baik adalah bahwa soal itu dapat
membedakan setiap kemampuan peserta didik. Semakin tinggi kemampuan peserta
didik dalam memahami materi yang telah diajarkan, maka semakin tinggi pula
peluang menjawab benar soal yang menanyakan materi yang telah diajarkan itu. Makin
rendah kemampuan peserta didik dalam memahami materi yang telah diajarkan,
makin kecil pula peluang menjawab benar suatu soal yang menanyakan materi yang
telah diajarkan.
Syarat soal yang bermutu baik adalah bahwa
soal harus sahih (valid), dan handal. Sahih maksudnya bahwa setiap alat ukur
hanya mengukur satu dimensi/aspek saja. Mistar hanya mengukur panjang,
timbangan hanya mengukur berat, bahan ujian atau soal PKn hanya mengukur
materi-materi PKn bukan mengukur keterampilan/kemampuan materi yang lain.
Handal maksudnya bahwa setiap alat ukur harus dapat memberikan hasil pengukuran
yang tepat, cermat, dan ajeg. Untuk dapat menghasilkan bahan ujian yang sahih
dan handal, penulis soal harus merumuskan kisi-kisi dan menulis soal
berdasarkan kaidah penulisan soal yang baik (kaidah penulisan soal bentuk
objektif/ pilihan ganda dan uraian).
Linn dan Gronlund (1995: 47) menyatakan bahwa
tes yang baik harus memenuhi tiga karakteristik, yaitu: validitas,
reliabilitas, dan usabilitas. Validitas artinya ketepatan interpretasi hasil
prosedur pengukuran, reliabilitas artinya konsisten hasil pengukurannya, dan usabilitas
artinya praktis prosedurnya. Di samping itu, Cohen dkk. (1992: 28) juga menyatakan
bahwa tes yang baik adalah tes yang valid artinya mengukur apa yang hendak diukur.
Selanjutnya Cohen dkk. menyatakan bahwa yang dimaksud dengan validitas adalah kebermaknaan
skor tes, apakah skor tes benar-benar bermakna. Nitko (1996 : 36) menyatakan
bahwa validitas berhubungan dengan interpretasi atau makna dan penggunaan hasil
pengukuran siswa. Messick (1993: 13) menjelaskan bahwa validitas tes merupakan suatu
integrasi pertimbangan evaluatif derajat keterangan empiris yang mendasarkan
pemikiran teoritis yang mendukung- ketepatan darn kesimpulan berdasarkan pada
skor tes. Adapun validitas dalam model Rasch adalah sesuai atau fit dengan
model (Hambleton dan Swaminathan, 1985: 73).
Messick (1993: 16) juga menyatakin bahwa validitas
secara tradisional terdiri dari: (1) validitas isi, yaitu ketepatan materi yang
diukur dalam tes; (2) validitas criterion-related, yaitu membandingkan tes
dengan satu atau lebih variable atau criteria, (3) valitidas prediktif, yaitu
ketepatan hasil pengukuran dengan alat lain yang dilakukan kemudian; (4)
validitas serentak (concurrent), yaitu ketepatan hasil pengukuran dengan
dua alat ukur lainnya yang dilakukan secara serentak; (5) validitas konstruk,
yaitu ketepatan konstruksi teoretis yang mendasari disusunnya tes. Lirm dan
Gronlund (1995 : 50) menyatakan hahwa valilitas terdiri dari: (1) konten. (2)
tes-criterion relationship, (3) konstruk, dan (4) consequences, yaitu ketepatan
penggunaan hasil pengukuran.
Namun menurut Oosterhof (190 : 23) yang mengutip berdasarkan "standards
for Educational and Psychological Testing, 1985" yang didukung oleh Ebel
dan Frisbie (1991 : 102-109), serta Popham (1995 : 43) bahwa tipe validitas
adalah validitas: (1) konten, (2) criterion, dan (3) konstruk.
Di samping validitas, informasi tentang
reliabilitas tes sangat diperlukan. Nitko (1999 : 62) dan Popharn (1995 : 21) menyatakan
bahwa reliabilitas berhubungan dengan konsistensi hasil pengukuran. Pernyataan ini didukung oleh Cohen dkk, yaitu
bahwa reliabilitas merupakan persamaan dependabilitas atau konsistensi (Cohen dkk : 192 : 132) karena tes yang
memiliki konsistensi/reliabilitas tinggi, maka tesnya adalah akurat,
reproducibel; dan gereralizabel terhadap kesempatan testing dan instrument tes
yang sama lainnya (Ebel dan Frisbie (1991 : 76). Adapun faktor yang
mempengaruhi reliabilitas adalah: (1) yang berhubungan dengan tes adalah banyak
butir, homogenitas materi tes, homogenitas karakteristik butir, dan variabilitas
skor; (2) yang berhubungan dengan siswa adalah: heterogenitas kelompok,
pengalaman siswa mengikuti tes, dan motivasi siswa, (3) yang berhubungan dengan
administrasi adalah: batas waktu dan kesempatan mencontek (Ebel dan Frisbie
(1991: 88-93).
Linn dan Gronlund menyatakan bahwa metode
estimasi dapat dilakukan dengan mempergunakan: (1) metode tes-retes, yaitu
diberikan tes yang sama dua kali pada kelompok yang sama dengan interval waktu;
tujuannya adalah pengukuran stabilitas; (2) metode ekuivalen form, yaitu
diberikan dua tes parallel pada kelompok yang sama dan waktu yang sama;
tujuannya adalah pengukuran menjadi ekuivalen; (3) metode tes-retes dengan
ekuivalen form, yaitu diberikan dua tes parallel pada kelompok yang sama dengan
interval waktu; tujuannya adalah pengukuran stabilitas dan ekuivalen; (4)
metode split-half, yaitu diberikan tes sekali, kemudian skor pada butir yang
ganjil dan geap dkorelasikan dengn mempergunakn rumus Spearman-Brown; tujuannya
adalah pengukuran konsistensi internal; (5) metode Kuder-Richardson dan
koefisien Alfa, yaitu diberikan tes sekali kemudian skor total tes dihitung
dengan rumus Kuder-Richardson, tujuannya adalah pengukuran konsistensi
internal; (6) metode inter-rater, yaitu diberikan satu set jawaban siswa untuk
diskor/judjment oleh 2 atau lebih rater; tujuannya adalah pengukuran
konsistensi rating. Menurut Popharn (1995: 22), reliabilitas terdiri dari 3
jenis yaitu: (1) stabilitas, yaitu konsistensi hasi di antara kesempatan
testing yang berbeda, (2) format bergantian (alternate form), yaitu konsistensi
hasil di antara dua atau lebih tes yang berbeda, (3) internal konsistensi,
yaitu konsistensi melalui suatu pengukuran fungsi butir instrument.
Reliabilitas skor tes dalam teori respon
butir wujudnya adalah penggunaan fungsi informasi tes. Menurut Hambleton dan
Swaminathan (1985: 236), pengukuran fungsi informasi tes lebih akurat bila
dibandingkan dengan penggunaan reliabilitas karena: (1) bentuknya tergantung
hanya pada butir-butir dalam tes, (2) mempunyai estimate kesalahan pengukuran
pada setiap level abilitas. Pernyataan ini didukung oleh Gustafson (1981 : 41),
yaitu bahwa konsep reliabilitas dalam model Rasch memerankan bagian subordinate
sebab model pengukuran ini diorientasikan pada estimasi kemampuan individu.
Untuk meningkatkan validitas dan reliabilitas
tes perlu dilakukan analisis butir soal karena kegunaan analisis butir soal di
antaranya adalah: (1) dapat membantu para pengguna tes dalam evaluasi atas tes
yang diterbitkan, (2) sangat relevan bagi penyusunan tes-tes informal dan local
seperti kuis, ujian yang disiapkan guru untuk siswa di kelas, (3) mendukung
penulisan butir soal yang efektif, (4) secara materi dapat memperbaiki tes-tes
di kelas, (5) meningkatkan validitas soal dan reliabilitas (Anastasi dan
Urbina, 1997: 172).