Perakitan butir soal sering dilakukan secara tidak cermat karena ada
beberapa kendala, diantaranya karena penyiapan bahannya dilakukan dalam tempo
yang relatif singkat. Setiap kali akan diadakan ujian / ulangan, bahan langsung
dipakai tanpa dapat diuji terlebih dahulu mutunya secara empirik. Akibat
kekurangcermatan ini, penggunaan perangkat atau beberapa perangkat tes di
tingkat sekolah, wilayah maupun nasional dapat merugikan banyak peserta didik
yang kebetulan menempuh perangkat tes yang lebih sukar karena perangkat tesnya
tidak paralel atau skor tes tidak memiliki kesamaan skala. Di samping itu,
apabila dasar perakitan soalnya hanya didasarkan pada kisi-kisi saja (tanpa
data empirik soal) atau didasarkan pada Kompetensi Dasar saja juga masih
mengandung beberapa kelemahan. Soal yang
ditulis para guru untuk mengukur kompetensi yang sama memiliki taraf kesukaran yang berbeda-beda karena taraf penguasan teknik penulisan soal setiap guru juga tidak sama. Jadi, sebenarnya adalah tidak adil jika guru menilai sama untuk skor 40 dari sebuah perangkat tes yang relatif mudah dengan skor 40 dari perangkat tes yang lebih sukar. Dampak lain yang cukup memprihantinkan adalah jika data nilai yang berasal dari beberapa perangkat tes begitu saja diolah untuk kepentingan penelitian atau analisis kebijakan. Untuk menghindari masalah ini, maka penyamaan skor untuk tes paralel dalam kegiatan perakitan butir soal adalah sangat penting.
ditulis para guru untuk mengukur kompetensi yang sama memiliki taraf kesukaran yang berbeda-beda karena taraf penguasan teknik penulisan soal setiap guru juga tidak sama. Jadi, sebenarnya adalah tidak adil jika guru menilai sama untuk skor 40 dari sebuah perangkat tes yang relatif mudah dengan skor 40 dari perangkat tes yang lebih sukar. Dampak lain yang cukup memprihantinkan adalah jika data nilai yang berasal dari beberapa perangkat tes begitu saja diolah untuk kepentingan penelitian atau analisis kebijakan. Untuk menghindari masalah ini, maka penyamaan skor untuk tes paralel dalam kegiatan perakitan butir soal adalah sangat penting.
Penyetaraan tes diperlukan bila dalam penyelenggaraan ulangan / ujian
menggunakan beberapa perangkat tes yang berbeda namun mengukur hal yang sama
atau berasal dari kisi-kisi tes yang sama. Penyetaraan artinya penyamaan skor
berdasarkan beberapa perangkat tes. Agar butir-butir soal dari beberapa paket
tes ( yang telah dikalibrasi) memiliki skala yang sama, maka butir-butir tesnya
perlu disetarakan.
Proses penyetaraan dari beberapa perangkat tes (equating) dapat dilakukan
dengan dua cara, yaitu penyetaraan secara horizontal dan penyetaraan secara
vertikal (Croker dan Algina, 1986: 458-464). Proses penyetaraan yang diperoleh
dari dua perangkat tes yang berbeda tetap mengukur hak yang sama dinamakan
peyetaraan horizontal. Adapun proses penyetaraan dari dua kelompok peserta tes
yang berbeda dalam tingkat / jenjang pendidikannya, namun diberi perangkat soal
yang sama dinamakan penyetaraan vertikal.
Dalam pelaksanaannya, proses penyetaraan tes dilakukan berdasarkan
pendekatan klasik dan modern. Untuk pendekatan klasik, proses penyetaraan tes digunakan
teori “true story” dan untuk pendekatan modern digunakan teori respon butir
(Item Response Theory) atau Latent Trait Theory. Proses penyetaraan dengan
pendekatan klasik dapat dilaksanakan dengan mempergunakan 3 metode, yaitu ( 1)
penyetaraan secara linier, (2) penyetaraan secara equipersentil, dan (3)
penyetaraan secara curvalinear
Dalam proses penyetaraan diperlukan beberapa butir soal yang dijadikan soal
inti (anchor items) yang disertakan dalam setiap paket tes. Fungsinya adalah untuk
menghubungkan (lingking) antara butir-butir soal pada setiap paket tes dalam
proses penyamaan skala. Adapun banyaknya butir soal yang akan dijadikan linking
dalam beberapa perangkat tes, pendapat para ahli berbeda-beda. Wright dan
Stone ( 1979:96) menetapkan bahwa antara
10-20 butir soal yang diperlukan untuk ligking ada tes X dan Y yang
masing-masng tes terdiri dari 60 butir soal. Hambleton et al ( 1991:135)
menyarankan bahwa jumlah butir soal yang digunakannya sekitar antara 20 %
sampai 25 % dari jumlah butir soal dalam satu perangkat tes. Namun Skaggs dan
Lisstz (1986:495-529) menyarankan atas dasar besarnya sample. Untuk sample
lebih dari 300 siswa, butir soal yang digunakan untu lingking banyaknya sekitar
5-15 butir soal.
Dalam penyetaraan tes terdapat 8 desain (Petersen,Kolen, dan Hoover,
1989:244-247) dengan keterangan seperti berikut X-perangkat tes X, Y=perangkat
tes Y, V=preangkat tes V, P1=merupakan random sampel dari populasi P,
Q1=merupakan random sample dari populasi, tanda cek(v)= data dikoleksi,
sedangkan tidak ada tanda cek= data tidak dikoleksi.
§
Single = group design
Sample
|
Test
|
|
X
|
Y
|
|
P1
|
v
|
v
|
§
Counterbalanced random-group design
Sample
|
Test
|
|||
X
|
Y
|
|||
1
|
2
|
1
|
2
|
|
P1
P2
|
v
|
v
|
v
|
v
|
§
Equivalent –group design
Sample
|
Test
|
|
X
|
Y
|
|
P1
P2
|
v
|
v
|
§
Anchor-test-random-group design
Sample
|
Test
|
||
X
|
Y
|
V
|
|
P1
P2
|
v
|
v
|
v
v
|
§
Anchor-test-nonequivalent-groups design
Sample
|
Test
|
||
X
|
Y
|
V
|
|
P1
Q1
|
v
|
v
|
v
v
|
§
Section pre-equating design with one variable section
Sample
|
Section
|
|||||
X1
|
X2
|
X3
|
Y1
|
Y2
|
Y3
|
|
P1
P2
P3
|
v
v
v
|
v
v
v
|
v
v
v
|
v
|
v
|
v
|
§
Section pre-equating design with two variable section
Sample
|
Section
|
|||||||
X1
|
X2
|
X3
|
X4
|
Y1
|
Y2
|
Y3
|
Y4
|
|
P1
P2
P3
P4
P5
P6
|
v
v
v
v
v
v
|
v
v
v
v
v
v
|
v
v
v
v
v
v
|
v
v
v
v
v
v
|
v
v
v
|
v
v
v
|
v
v
v
|
v
v
v
|
§
Item pre-equating design
Sample
|
Section
|
||||||||
V1
|
W1
|
W2
|
X1
|
X2
|
Y1
|
Y2
|
Z1
|
Z2
|
|
P1
P2
P3
Q1
Q2
Q3
|
v
v
|
v
v
v
|
v
v
v
|
v
v
v
|
v
v
v
|
v
|
v
|
v
|
v
|