A. Pengertian
Merakit soal adalah menyusun soal yang siap pakai menjadi satu
perangkat/paket tes atau beberapa paket tes paralel. Dasar acuan dalam merakit
soal adalah tujuan tes dan kisi-kisinya. Untuk memudahkan pelaksanaannya, para
tutor/guru harus memperhatikan langkah-langkah perakitan soal.
Dalam bab ini juga diuraikan penskoran jawaban soal. Pemeriksaan terhadap
jawaban peserta didik dan pemberian angka merupakan langkah untuk mendapatkan
informasi kuantitatif dari masing-masing peserta didik. Pada prinsipnya,
penskoran soal harus diusahakan agar dapat dilakukan secara objektif. Artinya,
apabila penskoran dilakukan oleh dua orang atau lebih yang sama tingkat
kompetensinya, akan menghasilkan skor atau angka yang sama, atau jika orang
yang sama mengulangi proses penskoran akan dihasilkan skor yang sama.
B. Langkah-langkah Perakitan Soal
Para pendidik dapat merakit soal menjadi suatu paket tes yang tepat, apabila
para pendidik memperhatikan langkah-langkah perakitan soal. Berikut langkah-langkah perakitan soal.
1.
Mengelompokkan soal-soal yang mengukur
kompetensi dan materi yang sama, kemudian soal-soal itu ditempatkan dalam
urutan yang sama.
2.
Memberi nomor urut soal didasarkan nomor urut
soal dalam kisi-kisi.
3.
Mengecek setiap soal dalam satu paket tes
apakah soal-soalnya sudah bebas dari kaidah “Setiap soal tidak boleh memberi
petunjuk jawaban terhadap soal yang lain”.
4.
Membuat petunjuk umum dan khusus untuk
mengerjakan soal.
5. Membuat format
lembar jawaban.
6. Membuat lembar
kunci jawaban dan petunjuk penilaiannya.
7. Menentukan/menghitung
penyebaran kunci jawaban (untuk bentuk obyektif), dengan menggunakan rumus
berikut.
Jumlah
soal
Penyebaran kunci jawaban = ¾¾¾¾¾¾¾¾¾¾¾ + 3
Jumlah
pilihan jawaban
|
8. Menentukan soal inti (anchor items) sebanyak
10 % dari jumlah soal dalam satu paket. Soal inti ini diperlukan apabila soal
yang dirakit terdiri dari beberapa tes paralel. Tujuannya adalah agar antar tes
memiliki keterkaitan yang sama. Penempatan soal inti dalam paket tes diletakkan
secara acak.
9. Menentukan besarnya bobot setiap soal (untuk
soal bentuk uraian)
Bobot soal adalah besarnya angka yang
ditetapkan untuk suatu butir soal dalam perbandingan (ratio) dengan butir soal
lainnya dalam satu perangkat tes. Penentuan besar kecilnya bobot soal
didasarkan atas tingkat kedalaman dan keluasan materi yang ditanyakan atau
kompleksitas jawaban yang dituntut oleh suatus soal. Untuk mempermudah
perhitungan/penentuan nilai akhir, jumlah bobot keseluruhan pada satu perangkat
tes uraian ditetapkan 100. Perakit soal harus dapat mengalokasikan besarnya
bobot untuk setiap soal dari bobot yang telah ditetapkan. Bobot suatu soal yang
sudah ditetapkan pada satu perangkat tes dapat berubah bila soal tersebut
dirakit ke dalam perangkat tes yang lain.
10. Menyusun tabel konversi skor
Tabel konversi sangat membantu para
pendidik pada saat menilai lembar jawaban peserta didik. Terutama bila dalam
satu tes terdiri dari dua bentuk soal, misal bentuk pilihan ganda dan uraian
atau tes tertulis dan tes praktek. Skor dari soal
bentuk pilihan ganda tidak dapat langsung digabung dengan skor uraian. Hal ini
karena tingkat keluasan dan kedalaman materi yang ditanyakan atau penekannya
dalam kedua bentuk itu tidak sama. Nilai
keduanya dapat digabung stetelah keduanya ditentukan bobotnya. Misalnya, untuk
soal bentuk pilihan ganda (45 soal dengan skor maksimum 45) bobotnya 60 % dan
bentuk uraian (5 soal dengan skor maksimum 20) bobotnya 40 %. Untuk menentukan
skor jadinya adalah skor perolehan peserta didik yang bersangkutan dibagi skor
maksimum kali bobot. Tabel konversi ini merupakan tabel konversi sederhana atau
klasik.
Untuk
memudahkan penggunaan tabel konversi, kita ingat proses penyamaan skala atau
konversi alat ukur suhu yang didasarkan pada konversi rumus yang sudah standar,
misal skala pengukuran: Celcius (titik awal 00 titik didih 1000). Reamur(titik
awal 00 titik didih 800),
Fahrenheit (titik awal 320
titik didih 2120 ), Kelvin (titik awal 2370 titik didih 3730). Masing-masing
skala pengukuran ini bukan untuk dibandingkan atau sebagai penentu kelulusan
atau sebagai pengatrol nilai, namun masing-masing memiliki skala sendiri-sendiri.
Keberadaan skala ini tidak bisa dikatakan bahwa orang yang menggunakan skala
pengukuran Celcius dan Reamur akan selalu dirugikan karena keduanya memiliki
nilai 0 sampai dengan 4 (bila acuan kriterianya 4,01), sedangkan orang yang
menggunakan Fahrenheit dan Kelvin selalu diuntungkan karena titik awalnya 32
dan 237. Demikian pula dengan konversi nilai dalam ulangan atau ujian. Guru,
dosen, atau panitia ujian mau menggunakan konversi yang mana. Dalam ilmu
pengukuran, konversi dapat disusun
melalui konversi biasa dan konversi yang terkalibrasi dengan model respon
butir. Apabila UN atau US sudah mempergunakan konversi model respon butir,
semua nilai peserta didik harus mengacu pada model konversi ini, tidak
membandingkan dengan konversi
lain/biasa.
Konversi biasa (model pengukuran secara klasik) penggunaannya biasa digunakan
guru di sekolah, yaitu untuk memperoleh nilai murni peserta didik. Bila
menghendaki skor maksimum 10 digunakan rumus (skor perolehan: skor maksimum) x
10 dan bila menggunakan skor maksimum 100 digunakan nilai konversi dengan rumus
(skor perolehan: skor maksimum) x 100 atau bila menggunakan skor maksimum 4 digunakan
nilai konversi dengan rumus (skor perolehan: skor maksimum) x 4. Konversi
seperti ini memiliki dua kelemahan, pertama adalah bahwa setiap butir soal
dihitung memiliki tingkat kesukaran yang sama. Artinya peserta didik manapun
yang menjawab benar 40 dari 50 butir soal dalam satu tes (terserah nomor butir
soal berapa yang benar, apakah nomor 1 benar, nomor 2 salah, nomor 3 benar atau
sebaliknya dan seterusnya, yang penting benar 40 soal) peserta didik yang
bersangkutan akan memperoleh nilai 8 (untuk konversi skor maksimum 10), 80
(untuk konversi skor maksimum 100) 0,2 (untuk konversi skor maksimum 4).
Kelemahan kedua adalah bahwa tingkat kesukaran butir soal tidak
ditempatkan/dikalibrasi pada skala yang sama. Artinya bahwa butir-butir soal
tidak disusun berdasarkan tingkat kesukarannya dan kemampuan peserta didik
sehingga model konversi ini belum bisa menentukan nilai murni peserta didik yang
sebenarnya. Seharusnya hanya peserta didik yang memiliki kemampuan tinggi
(missal pada skala kemampuan 1, kemampuan 2, kemampuan 3) yang dapat menjawab
benar semua soal dalam tes pada skala yang bersangkutan atau tingkat kesukaran
butir (mudah, sedang, sukar) sesuai dengan kemampuan peserta didik yang
bersangkutan. Apabila sekolah mempergunakan konversi biasa seperti ini justru
akan merugikan peserta didik yang memiliki kemampuan lebih tinggi.
Konversi yang terkalibrasi adalah konversi nilai yang disusun berdasarkan
kemampuan peserta didik dari tingkat kesukaran butir soal yang terkalibrasi
dengan model Rasch (Item Response Theory).
Untuk memahami model terkalibrasi ini diperlukan pengertian berikut. Setiap
jumlah jawaban yang benar soal, misal 1 sampai dengan 50, masing-masing butir
memiliki tingkat kemampuan (untuk teori klasik tidak ada). Tingkat kemampuan
ini diperoleh dari rumus model Rasch P= (e (F-d)) : (1 + e (F-d): P adalah peluang menjawab benar satu butir soal. E = 2,7183, F = tingkat kemampuan peserta didik, dan d =
tingat kesukaran butir soal. Kemudian nilai abilitas (misal -3,00 sampai
dengan +3,00) ditransformasi ke dalam skala 0-10, 0-100, atau 0-4. Misal untuk
dapat ditransformasi ke dalam skala
0-100 diperlukan rata-rata 50 dan standar deviasi 5, sehingga untuk
membuat tabel konversi mempergunakan rumus Y=50+5X. Y=nilai peserta didik dan X
adalah nilai abilitas. Dengan rumus inilah konversi terkalibrasi dapat disusun.
Jadi dalam konversi yang terkalibrasi skalanya didasarkan dua hal penting, yaitu tingkat kesukaran dan
tingkat kemampuan peserta didik. Soal ditempatkan pada tingkat kesukaran dan
kemampuan peserta didik yang telah disamakan skalanya. Bila tes sudah disamakan
skalanya, siapapun yang mengambil tes pada paket yang mudah, sedang, dan sukar,
masing-masing tes masih berada pada skala yang sama dan bisa dibandingkan. Oleh
karena itu, tes yang diberikan kepada peserta didik sudah selayaknya harus
sesuai dengan tingkat kemampuan peserta didik. Apabila kemampuan peserta didik
dalam memahami materi yang diajarkan guru itu tinggi (sudah tercapai target
kompetensinya), peluang menjawab benar soal pasti tinggi. Namun sebaliknya bila
kemampuan peserta didik dalam memahami materi yang diajarkan guru itu rendah
(belum tercapai target kompetensinya), peluang menjawab benar soal pasti
rendah. Apakah tesnya berbentuk tes lisan, tertulis (soalnya berbentuk pilihan
ganda, uraian, isian, dll.), atau perbuatan. Model Rasch merupakan salahsatu
model dalam teori respon butir yang menitikberatkan pada parameter tingkat
kesukaran butir soal. Model ini telah digunakan di berbagai kalangan seperti
untuk sertifikasi ujian kedokteran di USA, sejumlah program penilaian sekolah
di USA, program penilaian di Australia, studi matematik dan science
internasional ketiga, National School English Literacy Survey di Australia,
equating tes English di Provinsi Guandong Cina, dan beberapa tes diagnostic.
Model ini banyak digunakan orang sebagai pendekatan analitik standard untuk
kalibrasi instrumen karena modelnya sederhana, elegant, hemat, atau efektif dan efisien.
Konversi nilai berdasarkan Model Rasch memiliki keunggulan bila
dibandingkan dengan konversi nilai berdasarkan model pengukuran secara klasik.
Keterbatasan model pengukuran secara klasik adalah seperti berikut. (1) Tingkat
kemampuan dalam teori klasik adalah “true score”. Jika tes sulit artinya tingkat
kemampuan peserta didik rendah. Jika tes mudah artinya tingkat kemampuan
peserta didik tinggi. (2) tingkat kesukaran soal didefinisikan sebagai proporsi
peserta didik dalam kelompok yang menjawab benar soal. Mudah/sulitnya butir
soal tergantung pada kemampuan peserta didik yang dites dan keberadaan tes yang
diberikan. (3) Daya pembeda, reliabilitas, dan validitas
soal/tes didefinisikan berdasarkan grup peserta didik. Artinya bahwa konversi
nilai berdasarkan teori tes klasik memiliki kelemahan, yaitu (1) tingkat
kesukaran dan daya pembeda tergantung pada sampel; (2) penggunaan metode dan
teknik untuk desain dan analisis tes dengan memperbandingkan kemampuan peserta
didik pada pembagian kelompok di atas, tengah, bawah. Meningkatnya validitas
skor tes diperoleh dari tingkat kesukaran tes dihubungkan dengan tingkat
kemampuan setiap peserta didik; (3) konsep reliabilitas tes didefinisikan dari
istilah tes paralel; (4) tidak ada dasar teori untuk menentukan bagaimana
peserta didik memperoleh tes yang sesuai dengan kemampuan peserta didik; (5)
Standar kesalahan pengukuran hanya berlaku untuk seluruh peserta didik.
Disamping itu, tes klasik telah gagal memberi kesimpulan yang tepat terhadap
beberapa masalah testing seperti: desain tes (statistik butir klasik tidak
memberitahu penyusun tes tentang lokasi maksimum daya pembeda butir pada skala
skor tes), identifikasi item bias, dan equating skor tes (tidak suksesnya pada
item bias dan equating skor tes karena sulit menentukan kemampuan yang
sebenarnya di antara kelompok). Adapun kelebihan model Rasch atau teori respon
butir secara umum adalah bahwa: (1)
model ini tidak berdasarkan grup dependen, (2) skor peserta didik
dideskripsikan bukan tes dependen, (3) model ini menekankan pada tingkat butir
soal bukan tes, (4) model ini tidak memerlukan paralel tes untuk menentukan
reliabilitas tes, (5) model ini merupakan suatu model yang memberikan suatu
pengukuran ketepatan untuk setiap skor tingkat kemampuan. Tujuan utama teori
respon butir adalah memberikan invariant pada statistik soal dan estimasi
kemampuan. Oleh karena itu, kelebihan teori respon butir adalah: (1) responden
dapat diskor pada skala yang sama, (2) skor responden dapat dibandingkan pada
dua atau lebih bentuk tes yang sama, (3) semua bentuk soal memperoleh perlakuan
melalui cara yang sama, (4) tes dapat disusun sesuai keahlian berdasarkan
tingkat kemampuan yang akan dites.