A. Pengertian
Penelaahan soal secara
kuantitatif maksudnya adalah penelaahan butir soal didasarkan pada data
empirik dari butir soal yang bersangkutan. Data empirik ini diperoleh dari soal
yang telah diujikan.
B. Analisis Butir Soal
Ada dua pendekatan dalam analisis secara kuantitatif,
yaitu pendekatan secara klasik dan modern.
1.
Klasik
Analisis butir soal secara klasik
adalah proses penelaahan butir soal melalui informasi dari jawaban peserta
didik guna meningkatkan mutu butir soal yang bersangkutan dengan menggunakan teori tes klasik.
Kelebihan analisis butir soal secara
klasik adalah murah, dapat dilaksanakan sehari-hari dengan cepat menggunakan komputer,
murah, sederhana, familier dan dapat menggunakan data dari beberapa peserta didik atau sampel kecil
(Millman dan Greene, 1993: 358).
Adapun proses analisisnya sudah banyak dilaksanakan para
guru di sekolah seperti beberapa contoh di bawah ini.
a. Langkah pertama
yang dilakukan adalah menabulasi jawaban yang telah dibuat pada setiap butir
soal yang meliputi berapa peserta didik yang: (1) menjawab benar pada setiap
soal, (2) menjawab salah (option pengecoh), (3) tidak menjawab soal.
Berdasarkan tabulasi ini, dapat diketahui tingkat kesukaran setiap butir soal, daya
pembeda soal, alternatif jawaban yang dipilih peserta didik.
b. Misalnya
analisis untuk 32 siswa, maka langkah (1) urutkan skor siswa dari yang
tertinggi sampai yang terendah. (2) Pilih 10 lembar jawaban pada kelompok atas
dan 10 lembar jawaban pada kelompok bawah. (3) Ambil kelompok tengah (12 lembar
jawaban) dan tidak disertakan dalam analisis. (4) Untuk masing-masing soal,
susun jumlah siswa kelompok atas dan bawah pada setiap pilihan jawaban. (5)
Hitung tingkat kesukaran pada setiap butir soal. (6) Hitung daya pembeda soal.
(7) Analisis efektivitas pengecoh pada setiap soal (Linn dan Gronlund, 1995:
318-319).
Aspek
yang perlu diperhatikan dalam analisis butir soal secara klasik adalah setiap
butir soal ditelaah dari segi: tingkat kesukaran butir, daya pembeda butir, dan
penyebaran pilihan jawaban (untuk soal bentuk obyektif) atau frekuensi jawaban
pada setiap pilihan jawaban.
a. Tingkat Kesukaran (TK)
Tingkat kesukaran soal adalah peluang untuk menjawab
benar suatu soal pada tingkat kemampuan tertentu yang biasanya
dinyatakan dalam bentuk indeks. Indeks tingkat kesukaran ini pada umumnya dinyatakan dalam bentuk proporsi yang
besarnya berkisar 0,00 - 1,00
(Aiken (1994: 66). Semakin besar indeks tingkat kesukaran yang diperoleh dari
hasil hitungan, berarti semakin mudah soal
itu. Suatu soal memiliki TK= 0,00 artinya bahwa tidak ada siswa yang menjawab benar dan bila memiliki TK= 1,00 artinya
bahwa siswa menjawab benar. Perhitungan indeks
tingkat kesukaran ini dilakukan untuk setiap nomor soal. Pada prinsipnya, skor rata-rata yang diperoleh peserta
didik pada butir soal yang
bersangkutan dinamakan tingkat kesukaran butir soal itu. Rumus ini dipergunakan untuk soal obyektif. Rumusnya adalah seperti
berikut ini (Nitko, 1996: 310).
Fungsi tingkat kesukaran butir soal
biasanya dikaitkan dengan tujuan tes. Misalnya untuk keperluan ujian semester digunakan
butir soal yang memiliki tingkat kesukaran sedang, untuk keperluan seleksi digunakan
butir soal yang memiliki tingkat kesukaran tinggi/sukar, dan untuk keperluan
diagnostik biasanya digunakan butir soal yang memiliki tingkat kesukaran rendah/mudah.
Untuk mengetahui tingkat kesukaran
soal bentuk uraian digunakan rumus berikut ini.
Hasil
perhitungan dengan menggunakan rumus di atas menggambarkan tingkat kesukaran
soal itu. Klasifikasi tingkat kesukaran soal dapat dicontohkan seperti berikut
ini.
0,00 - 0,30 soal tergolong sukar
0,31 - 0,70 soal tergolong sedang
0,71 - 1,00 soal tergolong mudah
Tingkat
kesukaran butir soal dapat mempengaruhi bentuk distribusi total skor tes. Untuk
tes yang sangat sukar (TK= < 0,25) distribusinya berbentuk positif skewed,
sedangkan tes yang mudah dengan TK= >0,80) distribusinya berbentuk negatif
skewed.
Tingkat
kesukaran butir soal memiliki 2 kegunaan, yaitu kegunaan bagi guru dan kegunaan
bagi pengujian dan pengajaran (Nitko, 1996: 310-313). Kegunaannya bagi guru
adalah: (1) sebagai pengenalan konsep terhadap pembelajaran ulang dan memberi
masukan kepada siswa tentang hasil belajar mereka, (2) memperoleh informasi
tentang penekanan kurikulum atau mencurigai terhadap butir soal yang bias.
Adapun kegunaannya bagi pengujian dan pengajaran adalah: (a) pengenalan konsep
yang diperlukan untuk diajarkan ulang, (b) tanda-tanda terhadap kelebihan dan
kelemahan pada kurikulum sekolah, (c) memberi masukan kepada siswa, (d)
tanda-tanda kemungkinan adanya butir soal yang bias, (e) merakit tes yang
memiliki ketepatan data soal.
Di
samping kedua kegunaan di atas, dalam konstruksi tes, tingkat kesukaran butir
soal sangat penting karena tingkat kesukaran butir dapat: (1) mempengaruhi
karakteristik distribusi skor (mempengaruhi bentuk dan penyebaran skor tes atau
jumlah soal dan korelasi antarsoal), (2) berhubungan dengan reliabilitas.
Menurut koefisien alfa clan KR-20, semakin tinggi korelasi antarsoal, semakin
tinggi reliabilitas (Nunnally, 1981: 270-271).
Tingkat
kesukaran butir soal juga dapat digunakan untuk mempredikst alat ukur itu
sendiri (soal) dan kemampuan peserta didik dalam memahami materi yang diajarkan
guru. Misalnya satu butir soal termasuk
kategori mudah, maka prediksi terhadap informasi ini adalah seperti berikut.
1) Pengecoh
butir soal itu tidak berfungsi.
2) Sebagian
besar siswa menjawab benar butir soal itu; artinya bahwa sebagian besar siswa
telah memahami materi yang ditanyakan.
Bila suatu butir soal termasuk kategori sukar, maka
prediksi terhadap informasi ini adalah seperti berikut.
1) Butir
soal itu "mungkin" salah kunci jawaban.
2) Butir
soal itu mempunyai 2 atau lebih jawaban yang benar.
3) Materi
yang ditanyakan belum diajarkan atau belum tuntas pembelajarannya, sehingga
kompetensi minimum yang harus dikuasai siswa belum tercapai.
4) Materi
yang diukur tidak cocok ditanyakan dengan menggunakan bentuk soal yang
diberikan (misalnya meringkas cerita atau mengarang ditanyakan dalam bentuk
pilihan ganda).
5) Pernyataan
atau kalimat soal terlalu kompleks dan panjang.
Namun,
analisis secara klasik ini memang memiliki keterbatasan, yaitu bahwa tingkat
kesukaran sangat sulit untuk mengestimasi secara tepat karena estimasi tingkat
kesukaran dibiaskan oleh sampel (Haladyna, 1994: 145). Jika sampel berkemampuan
tinggi, maka soal akan sangat mudah (TK= >0,90). Jika sampel berkemampuan
rendah, maka soal akan sangat sulit (TK = < 0,40). Oleh karena itu memang
merupakan kelebihan analisis secara IRT, karena 1RT dapat mengestimasi tingkat
kesukaran soal tanpa menentukan siapa peserta tesnya (invariance). Dalam IRT,
komposisi sampel dapat mengestimasi parameter dan tingkat kesukaran soal tanpa
bias.
b. Daya Pembeda (DP)
Daya
pembeda soal adalah kemampuan suatu butir soal dapat membedakan antara warga
belajar/siswa yang telah menguasai materi yang ditanyakan dan warga
belajar/siswa yang tidak/kurang/belum menguasai materi yang ditanyakan. Manfaat
daya pembeda butir soal adalah seperti berikut ini.
1) Untuk meningkatkan
mutu setiap butir soal melalui data empiriknya. Berdasarkan indeks daya pembeda, setiap butir soal dapat
diketahui apakah butir soal itu baik, direvisi, atau ditolak.
2) Untuk
mengetahui seberapa jauh setiap butir soal dapat mendeteksi/membedakan
kemampuan siswa, yaitu siswa yang telah memahami atau belum memahami materi
yang diajarkan guru. Apabila suatu butir soal tidak dapat membedakan kedua
kemampuan siswa itu, maka butir soal itu dapat dicurigai
"kemungkinannya" seperti berikut ini.
·
Kunci jawaban butir soal itu tidak tepat.
·
Butir soal itu memiliki 2 atau lebih kunci jawaban yang benar
·
Kompetensi yang diukur tidak jelas
·
Pengecoh tidak berfungsi
·
Materi yang ditanyakan terlalu sulit, schingga banyak siswa yang menebak
·
Sebagian besar siswa yang memahami materi yang ditanyakan berpikir ada yang
salah informasi dalam butir soalnya
Indeks daya pembeda setiap butir soal biasanya juga
dinyatakan dalam bentuk proporsi. Semakin tinggi indeks daya pembeda soal
berarti semakin mampu soal yang bersangkutan membedakan warga belajar/siswa
yang telah memahami materi dengan warga belajar/peserta didik yang belum
memahami materi. Indeks daya pembeda berkisar antara -1,00 sampai dengan +1,00.
Semakin tinggi daya pembeda suatu soal, maka semakin kuat/baik soal itu. Jika
daya pembeda negatif (<0) berarti lebih banyak kelompok bawah (warga
belajar/peserta didik yang tidak memahami materi) menjawab benar soal dibanding
dengan kelompok atas (warga belajar/peserta didik yang memahami materi yang
diajarkan guru).
Untuk mengetahui daya pembeda soal bentuk pilihan ganda
adalah dengan menggunakan rumus berikut ini.
atau
DP = daya pembeda soal,
BA = jumlah jawaban benar pada kelompok atas,
BB = jumlah jawaban benar pada kelompok
bawah, N=jumlah siswa yang mengerjakan tes.
Di samping rumus di atas, untuk mengetahui daya pembeda
soal bentuk pilihan ganda dapat dipergunukan rumus korelasi point biserial (r
pbis) dan korelasi biserial (r bis) (Miliman and (ire ene, 1993: 359-360) dan
(Glass and Stanley, 1970: 169-170) seperti berikut.
dan
Xb, Yb adalah rata-rata skor warga belajar/siswa yang menjawab benar
Xs, Ys adalah rata-rata skor warga belajar siswa yang menjawab salah
SDt adalah simpangan baku skor total
nb dan n, adalah jumlah siswa yang menjawab benar dan jumlah siswa yang
menjawab salah, serta nb + n, = n.
p adalah proporsi jawaban benar terhadap semua jawaban siswa
q adalah I –p
U adalah ordinat kurva normal.
Untuk mengetahui daya pembeda soal bentuk uraian adalah
dengan menggunakan rumus berikut ini.
Hasil perhitungan dengan menggunakan rumus di atas dapat
menggambarkan tingkat kemampuan soal dalam membedakan antar peserta didik yang
sudah memahami materi yang diujikan dengan peserta didik yang belum/tidak memahami
materi yang diujikan. Adapun klasifikasinya adalah seperti berikut ini (Crocker
dan Algina, 1986: 315).
0,40 - 1,00 soal diterima baik
0,30 - 0,39 soal diterima tetapi
perlu diperbaiki 0,20 - 0,29 soal diperbaiki
0,19 - 0,00 soal tidak
dipakai/dibuang
rpbis merupakan korelasi product moment antara skor dikotomus
dan pengukuran kriterion, sedangkan rbis merupakan korelasi product moment
antara variabel latent distribusi normal berdasarkan dikotomi benar-salah dan
pengukuran kriterion. Oleh karena itu, untuk perhitungan pada data yang sama
rpbis = 0, sedangkan r bis paling sedikit 25% lebih besar daripada rpbis. Kedua
korelasi ini masing-masing memiliki kelehihan (Millman and Greene, 1993: 360)
walaupun para guru/pengambil kebijakan banyak yang suka menggunakan rpbis.
Kelebihan korelasi point biserial: (1) memberikan
refleksi konstribusi soal secara sesungguhnya terhadap fungsi tes. Maksudnya
ini mengukur bagaimana baiknya soal berkorelasi dengan criterion (tidak
bagaimana baiknya beberapa/secara abstrak); (2) sederhana dan langsung
berhubungan dengan statistik tes, (3) tidak pernah mempunyai value 1,00 karena
hanya variabel-variabel dengan distribusi bentuk yang sama yang dapat
berkorelasi secara tepat, dan variabel kontinyu (kriterion) dan skor dikotonius
tidak mempunyai bentuk yang sama.
Adapun kelebihan korelasi biserial adalah: (1) cenderung
lebih stabil dari sampel ke sampel, (2) penilaian lebih akurat tentang
bagaimana soal dapat diharapkan untuk membedakan pada beberapa perbedaan point
di skala abilitas, (3) value rbis yang sederhana lebih langsung berhubungan
dengan indikator diskriminasi ICC.