1. Pengertian Evaluasi
Pada awalnya pengertian evaluasi lebih
dikaitkan pada prestasi belajar siswa. Evaluasi mengandung beberapa makna,
seperti yang diungkapkan oleh Ralph Tyler, Cronbach, dan Stufflebeam (Suharsimi
Arikunto, 2002). Menurut Ralph Tyler (1950), evaluasi merupakan sebuah proses
pengumpulan data untuk menentukan sejauh mana, dalam hal apa, dan bagian mana
tujuan pendidikan sudah tercapai. Definisi eveluasi secara lebih luas dikemukan
oleh Cronbach, dan Stufflebeam bahwa proses evaluasi bukan sekedar mengukur
sejauh mana tujuan tercapai, tetapi digunakan untuk membuat keputusan. Kegiatan
evaluasi meliputi dua langkah yaitu mengukur dan menilai.
Lebih lanjut, berikut adalah penjelasan
dari buku Penilaian Kelas pada Kurikulum 2004 tentang beberapa istilah yang
sering terkait dengan penilaian (http:/re-searchengines.com/0405edi.html).
Banyak orang mencampuradukkan pengertian antara evaluasi, pengukuran
(measurement), tes, dan penilaian (assessment), padahal keempatnya memiliki
pengertian yang berbeda. Evaluasi adalah kegiatan identifikasi untuk melihat
apakah suatu program yang telah direncanakan telah tercapai atau belum,
berharga atau tidak, dan dapat pula untuk melihat tingkat efisiensi
pelaksanaannya. Evaluasi berhubungan dengan keputusan nilai (value judgement).
Di bidang pendidikan, kita dapat melakukan evaluasi terhadap kerja guru,
kurikulum baru, suatu kebijakan pendidikan, sumber belajar tertentu, atau etos.
Evaluasi berhubungan dengan keputusan nilai
(value judgement). Stufflebeam (http://akhmadsudrajat.wordpress.com )
mengemukakan bahwa: educational evaluation is the process of delineating,
obtaining,and providing useful, information for judging decision alternatif.
Dari pandangan Stufflebeam, kita dapat melihat bahwa esensi dari evaluasi yakni
memberikan informasi bagi kepentingan pengambilan keputusan. Di bidang
pendidikan, kita dapat melakukan evaluasi terhadap kurikulum baru, suatu
kebijakan pendidikan, sumber belajar tertentu, atau etos kerja guru.
Evaluasi selalu dilaksanakan dengan merujuk
kepada tujuan yang ingin dicapai dalam suatu kegiatan. Evaluasi merupakan
proses pemberian pertimbangan atau makna mengenai nilai dan arti dari sesuatu
yang dipertimbangkan (http://blog.persimpangan.com). Sesuatu yang
dipertimbangkan tersebut dapat berupa orang, benda, kegiatan, keadaan, atau
suatu kesatuan tertentu. Dengan kata lain evaluasi adalah proses penentuan
nilai atau harga dari data yang terkumpul. Pemberian pertimbangan mengenai
nilai dan arti tidak dapat dilakukan secara sembarangan, oleh karenanya
evaluasi harus dilakukan berdasar prinsip-prinsip tertentu.
A. Ciri-ciri Tes yang Baik
Tes yang baik adalah tes yang dapat
mengukur hasil belajar siswa dengan tepat. Untuk dapat menghasilkan tes yang
seperti itu maka tes tersebut harus dibuat melalui perencanaan yang baik.
Hal-hal yang perlu diperhatikan dalam membuat perencanaan tes yang baik adalah
( http://pustaka.ut.ac.id/learning.php):
Tentukan tujuan pembelajaran yang ingin
diukur.
Pilih pokok bahasan dan sub-pokok bahasan
yang relevan untuk mencapai tujuan tersebut.
Tentukan proses berpikir yang ingin diukur.
Tentukan jenis tes yang tepat digunakan
untuk mengukur tujuan pembelajaran tersebut.
Tentukan tingkat kesukaran butir soal yang
akan dibuat.
Selain itu, sebuah test dapat dikatakan baik
sebagai alat pengukur harus memenuhi kriteria, yaitu memiliki validitas,
reliabilitas, objektivitas, praktikabilitas dan ekonomis
(http://www.fajar.co.id).
a). Validitas
Sebuah alat pengukur dapat dikatakan valid
apabila alat pengukur tersebut dapat mengukur apa yang hendak diukur secara
tepat. Demikian pula dalam alat-alat evaluasi. Suatu tes dapat dikatakan
memiliki validitas yang tinggi apabila tes itu tersebut betul-betul dapat
mengukur hasil belajar. Jadi bukan sekedar mengukur daya ingatan atau kemampuan
bahasa saja misalnya.
Untuk lebih mendukung memahami pengertian
tersebut selanjutnya akan diuraikan beberapa macam kriteria validitas, yaitu:
1). Content validity (validitas isi)
Pengujian jenis validitas ini dilakukan
secara logis dan rasional karena itu disebut juga rational validity atau
logical validity.Batasan content validity ini menggambarkan sejauh mana tes
mampu mengukur materi pelajaran yang telah diberikan secara representatif dan
sejauh mana pula tes dapat mengukur sampel yang representatif dari
perubahan-perubahan perilaku yang diharapkan terjadi pada diri siswa. Dengan
demikian suatu tes hasil belajar disebut memiliki validitas tinggi secara
content, bila tes tersebut sudah dapat mengukur sampel yang representatif dari
materi pelajaran (subject matter) yang diberikan, dan perubahan-perubahan
perilaku (behavioral changes) yang diharapkan terjadi pada diri siswa. Misalnya
apabila kita ingin memberikan tes bahasa inggris untuk kelas II, maka
item-itemnya harus diambil dari bahan pelajaran kelas II. Kalau diambilnya dari
kelas III maka tes itu tidak valid lagi.
2). Predictive validity (validitas ramalan)
Validitas ramalan artinya ketepatan
(kejituan) suatu alat pengukur ditunjau dari kemampuan tes tersebut untuk
meramalkan prestasi yang dicapainya kemudian. Suatu tes hasil belajar dapat
dikatakan mempunyai validitas ramlan yang tinggi, apabila hasil yang dicapai
siswa dalam tes tersebut betul-betul meramalakan sukses tidaknya siswa tersebut
dakam pelajaran-pelajaran yang akan datang. Cara yang digunakan untuk mengukur
tinggi rendahnya validitas ramalan ialah dengan mencari korelasi antara
nilai-nilsi yang dicapai oleh anak-anak dalam tes tersebut dengan nilai-nilai
yang dicapai kemudian.
3). Concurent validity (Validitas
bandingan)
Kejituan suatu tes dilihat dari korelasinya
terhadap kecakapan yang telah dimiliki saat kini secara riil. Cara yang
digunakan untuk menilai validitas bandingan ialah dengan jalan mengkorelasikan
hasil-hasil yang dicapai dalam tes tersebut dengan hasil-hasil yang dicapai
dalam tes yang sejenis yang telah diketahui mempunyai validitas yang tinggi
(misalnya tes standar).
4). Construct Validity (validitas
konstruk/susunan teori)
Yaitu ketepatan suatu tes ditinjau dari
susunan tes tersebut. Misalnya kalau kita ingin memberikan tes kecakapan ilmu
pasti, kita harus membuat soal yang ringkas dan jelas yang benar-benar akan
mengukur kecakapan ilmu pasti, bukan mengukur kemampuan bahasa karena soal itu
ditulis secara berkepanjangan dengan bahasa yang sulit dimengerti.
Validitas merupakan produk dari validasi.
Validasi adalah suatu proses yang dilakukan oleh penyusun atau pengguna
instrumen untuk mengumpulkan data secara empiris guna mendukung kesimpulan yang
dihasilkan oleh skor instrumen. Sedangkan validitas adalah kemampuan suatu alat
ukur untuk mengukur sasaran ukurnya.
Untuk menjadi valid suatu instrumen tidak
hanya konsisten dalam penggunaannya, namun yang terpenting adalah harus mampu
mengukur sasaran ukurnya. Hal ini berarti bahwa validitas merupakan ciri
instrumen yang terpenting. Berbagai usaha dilakukan untuk meningkatkan
validitas instrumen, baik langsung ataupun tidak berhubungan dengan peningkatan
validitas instrumen itu sendiri. Untuk menjadi valid maka suatu instrumen harus
dikonstruksi dengan baik dan mencakup materi yang benar-benar mewakili sasaran
ukurnya. Validitas instrumen bersifat relatif terhadap situasi tertentu dan
tergantung pada kondisi tertentu. Instrumen yang mempunyai validitas tinggi
terhadap tujuan atau kegunaan tertentu mungkin akan mempunyai validitas sedang
atau mungkin rendah terhadap tujuan lainnya.
Menurut Messik (1989) terdapat lima aspek
yang berbeda dalam konsep validitas. Kelima aspek tersebut secara bersama-sama
berfungsi sebagai ukuran validitas umum atau standar untuk semua pengukuran
psikologis dan pendidikan. Kelima aspek tersebut adalah: (1) Substansi. Aspek
substansi validitas mencakup verifikasi proses utama dalam pengungkapan tugas
penilaian. Hal ini dapat dikenali melalui penggunaan teori substansi dan
pemodelan proses. Ketika menentukan substansi instrumen, seseorang perlu
mempertimbangkan dua hal pokok: Pertama, tugas penilaian harus mewakili materi
yang akan dinilai. Kedua, penilaian harus ditetapkan berdasarkan fakta-fakta
empiris. (2) Strukrur pensekoran. Strukrur pensekoran harus secara rasional
konsisten dengan apa yang diketahui tentang sifat hubungan struktural dari
keberadaan konstruk yang dipersoalkan. Struktur internal penilaian harus
konsisten dengan apa yang diketahui tentang struktur internal dari domain
konstruk. (3) Ketergeneralisasian. Ketergene-ralisasian penilaian harus
memenuhi keterwakilan isi dan konstruk. Hal ini memungkinkan penafsiran skor
untuk penggeneralisasian secara luas dalam konstruk yang ditetapkan. Fakta
seperti kemampuan generalisasi tersebut tergantung pada tingkat korelasi suatu
tugas dengan tugas lainnya yang juga mewakili konstruk atau aspek-aspek
konstruk. (4) Faktor-faktor eksternal. Aspek eksternal dari validitas mengacu
pada tingkat hubungan skor assessment dengan ukuran lain dan perilaku nonassessment
yang mencerminkan tinggi, rendah, dan hubungan interaksi antara konstruk yang
ditetapkan. (5) Akibat dari validitas. Akibat validitas meliputi bukti dan
dasar pemikiran dalam mengevaluasi konsekuensi penafsiran dan menggunakan skor
yang tidak diharapkan dan yang diharapkan. Penyelidikan jenis ini terutama
penting ketika berhubungan dengan akibat yang merugikan bagi individu dan
kelompok yang dihubungkan dengan penyimpangan dalam penskoran dan penafsiran.
Ke lima aspek validitas tersebut berlaku
bagi semua pengukuran psikologis dan pendidikan; umumnya penafsiran berbasis
skor dan kesimpulan tindakan mengasumsikannya secara tegas atau secara
tersembunyi. Tantangan dalam validasi instrumen selanjutnya adalah
menghubungkan kesimpulan ini terhadap fakta-fakta terpusat yang mendukungnya
seperti halnya terhadap fakta-fakta berbeda yang merupakan bagian kesimpulan
tandingan yang rasional.
· Jenis-jenis Validitas dan Ukurannya
Crocker dan Algina (1986) membedakan tiga
jenis validitas, yaitu: 1) validitas isi, mengkaji kepadanan sampel yang
terdapat dalam suatu instrumen; 2) validitas konstruk, mengkaji sifat-sifat
psikologis yang menjelaskan keragaman skor responden dalam instrumen tertentu;
3) dan validitas relasi kriteria, membandingkan skor responden dengan satu atau
lebih variabel eksternal.
Validitas konstruk mencakup syarat-syarat
empiris dan logis dari validitas isi dan validitas kriteria. Hal Ini berari
bahwa validitas konstruk menggabungkan syarat-syarat yang terdapat dalam
validitas isi dan validitas relasi kriteria (Anastasi, 1997). Validitas
konstruk menghubungkan gagasan dan praktek pengukuran di satu pihak, dengan
gagasan teoretik di pihak lain. Para penyusunan instrumen biasanya bertolak
dengan bekal suatu konstruk, kemudian mengembangkan instrumen untuk mengukur
konstruk tersebut. Selanjutnya, butir-butir instrumen yang telah
dikembambangkan diujicobakan secara empiris.
Validitas isi dan validitas konstruk
berhubungan dengan kecocokan butir-butir instrumen dengan tujuan ukurnya. Kedua
jenis validitas tersebut dapat ditentukan melalui pengkajian secara teoretis
dan secara empiris, yang mencakup: (1) menjelaskan pokok bahasan dan sub pokok
bahasan; (2) menetapkan pokok bahasan dan subpokok bahasan yang diukur oleh
setiap butir instrumen; (3) mencocokkan butir-butir instrumen dengan pokok
bahasan dan subpokok bahasan yang diukurnya. Secara teoretis validitas isi dan
validitas konstruk dapat dikaji melalui penilaian panelis. Penilaian panelis
dimaksudkan untuk menilai kesesuaian setiap butir instrumen dengan pokok
bahasan dan subpokok bahasan yang diukurnya. Prosedur yang digunakan adalah
meminta para panelis untuk mencermati butir-butir instrumen. Kemudian menilai
kesesuaian setiap butir instrumen dengan pokok bahasan dan subpokok bahasan
yang diukurnya.
Suatu contoh penilaian validitas isi dan
validitas konstruk secara teoretis dapat dilakukan melalui penilaian panelis
(pakar). Pengembangan prosedur penilaian panelis dapat dilakukan melalui
beberapa langkah, yaitu: Pertama, menetapkan skala yang digunakan, yaitu: 1 =
tidak relevan, 2 = kurang relevan, 3 = cukup relevan, 4 = relevan, dan 5 =
sangat relevan. Kedua, menetapkan kriteria penilaian yang mencakup: (1)
mengukur indikatornya; (2) hanya memiliki satu arti; (3) jelas dan mudah
dipahami; (4) tidak bersifat faktual; dan (5) tidak tumpang tindih dengan
butir-butir lainnya. Ketiga, menetapkan pilihan, yaitu: 1 (tidak relevan) jika
hanya satu atau semua kriteria tidak terpenuhi; 2 (kurang relevan) jika hanya
dua kriteria yang terpenuhi; 3 (cukup relevan) jika hanya tiga kriteria yang
terpenuhi; 4 (relevan) jika hanya empat kriteria yang terpenuhi; dan 5 (sangat
relevan) jika semua kriteria terpenuhi. Keempat, kualitas masing-masing butir
instrumen didasarkan atas rerata hasil penilaian panelis, dengan kriteria
sebagai berikut:
Rerata Penilaian Keputusan
1,0 – 2,9 Tidak sesuai Direvisi
3,0 – 3,9 Cukup sesuai Diterima dengan
revisi
4,0 – 5,0 SesuaiDiterima
Penilaian validitas isi dan validitas
konstruk secara empiris dilakukan dengan ujicoba instrumen kepada responden
yang sesuai dengan karakteristik responden tempat pemberlakuan instrumen final.
Penetapan jumlah sampel dapat diacuh dari pendapat Nunnaly (1970) bahwa untuk
mengurangi resiko kehilangan butir-butir instrumen dan agar memungkinkan untuk
mengeliminasi faktor-faktor yang tidak dikehendaki maka dalam analisis
instrumen direkomendasikan untuk digunakan sampel 5–10 kali jumlah butir
instrumen.
Ujicoba secara empiris dimaksudkan untuk
menganalisis validitas isi dan validitas konstruk instrumen secara empiris.
Validitas isi biasanya digunakan untuk menyebut validitas instrumen tes,
sedangkan validitas konstruk biasanya digunakan untuk menyebut validitas
instrumen non tes. Secara empiris, kedua jenis validitas tersebut dianalisis
dengan cara yang berbeda.
· Validitas isi
Secara empiris alat analisis validitas isi
yang biasa digunakan (khusus untuk tes pilihan ganda) adalah Item and Test
Analysis (ITEMAN). Alat analisis ini dimaksudkan untuk mendapatkan informasi
tentang: indeks kesukaran butir tes, indeks daya beda butir, dan keberfungsian
pengecoh. Disamping itu, juga untuk menentukan: korelasi biserial titik (point
biserial correlation), dan keseimbangan isi atau keterwakilan materi yang
hendak diukur. Secara empiris kelima informasi tersebut dibutuhkan karena
saling berhubungan antara satu dengan yang lainnya, dimana keberfungsian
pilihan dapat meningkatkan indeks kesukaran butir tes, indeks kesukaran butir
tes dapat menentukan daya beda butir, dan indeks kesukaran dan daya beda butir
dapat mempengaruhi interkorelasi butir, dan secara keseluruhan kelima informasi
tersebut merupakan penentu tingkat reliabilitas tes. Untuk jelasnya prosedur
analisis butir dan penetapan kriteria untuk menerima, menolak atau merevisi
butir-butir tes, secara berturut-turut sebagai berikut:
1. Indeks kesukaran butir (p). Indeks
kesukaran butir tes adalah proporsi peserta yang menjawab benar butir tes.
Indeks kesukaran butir yang baik berkisar antara 0,3-0,7 paling baik pada 0,5;
karena p=0,5 dapat memberikan kontribusi optimal terhadap korelasi biserial
titik, daya pembeda butir, dan reliabilitas tes. Butir-butir tes yang memiliki
indeks kesukaran di bawah atau di atas kriteria 0,3 - 0,7 dapat digunakan
apabila ada pertimbangan keterwakilan pokok bahasan yang diukurnya.
2. Daya pembeda butir (D). Daya pembeda
butir adalah kemampuan butir tes untuk membedakan siswa mampu dan kurang mampu.
Indeks daya beda butir mempunyai rentang nilai –1 ke +1, namun nilai negatif
dan rendah menunjukkan kinerja butir yang rendah. Suatu butir tes dapat
dipertahankan apabila memiliki nilai D ³ 2,0. Indeks daya beda butir dihitung
dengan menggunakan rumus: D= pu - pi; dimana: pu = proporsi kelompok atas yang
menjawab benar, pi = proporsi kelompok bawah yang menjawab benar. Pembagian
kelompok responden didasarkan atas pendapat Kelly (1939) yang dikutip oleh
Crocker dan Algina (1996) bahwa indeks daya beda butir yang lebih stabil dan
sensitif dapat dicapai dengan menggunakan 27 persen kelompok atas dan 27 persen
kelompok bawah.
3. Korelasi biserial titik (rpbi). Korelasi
biserial titik adalah korelasi antara skor butir tes dengan skor total.
Korelasi biserial titik dapat disamakan dengan daya beda butir, namun rpbi itu
sendiri perlu dihitung karena dapat menyediakan refleksi yang sebenarnya dari
kontribusi setiap butir tes terhadap keberfungsian tes. Semakin tinggi rpbi
suatu butir tes semakin tinggi kontribusinya dalam memprediksi kriteria. Suatu
butir tes dapat dipertahankan apabila memiliki rpbi ³ 0,30.
4. Keberfungsian pengecoh. Suatu pengecoh
dapat dipertahankan apabila memenuhi syarat-syarat: (1) kunci jawaban (keyed
answer) harus dipilih lebih banyak oleh kelompok atas daripada kelompok bawah;
(2) setiap penggagal (foils) harus dipilih minimal 2 persen dari keseluruhan
peserta tes dan dipilih minimal 5 persen kelompok bawah, (3) Indeks daya beda
kunci jawaban harus positif dan indeks daya beda penggagal harus negatif.
· Validitas konstruk
Sama halnya dengan prosedur ujicoba
instrumen tes, instrumen non tes juga diujicobakan secara empiris kepada
sejumlah responden (5-10 kali jumlah butir instrumen). Data hasil ujicoba
secara empiris dari instrumen non tes biasanya dianalisis dengan menggunakan
Analisis Faktor Konfirmasi (Confirmatory Factor Analysis) dengan menggunakan
metode ekstraksi komponen utama (principle component extraction). Analisis
tersebut bertujuan untuk menguji kebenaran konstruk teori yang dijadikan acuan
dalam pengembangan instrumen, dengan cara menentukan struktur atau model faktor
dari sejumlah butir instrumen berdasarkan muatan faktor (factor loading) jumlah
varians (eigenvalue), dan proporsi varians (communality). Dalam analisis ini
juga digunakan rotasi ortogonal dan varimax. Beberapa kriteria yang dijadikan
acuan dalam analisis faktor adalah:
1). Ukuran kecukupan pensampelan (sampling adequacy).
Ditentukan dengan menggunakan rumus Kaiser-Meyer-Olkin (KMO), yaitu dengan
membandingkan nilai koefisien korelasi observasi dengan koefisien korelasi
parsial (Norusis, 1996). Jika koefisien korelasi parsial kecil maka nilai KMO
besar (mendekati satu) berarti dapat digunakan analisis faktor, sebaliknya jika
nilai koefisien korelasi parsial besar maka nilai KMO kecil (mendekati nol)
berarti tidak dapat digunakan analisis faktor. Jelasnya penafsiran nilai KMO
diacuh dari ciri yang dikemukakan oleh Kaiser (1974) seperti dikutip oleh
Norusis (1996) bahwa KMO 0,90 baik sekali (marvelous); 0,80 baik (meritorius);
0,70 sedang (middling); 0,60 kurang (mediocre); 0,50 sangat kurang (miserable);
dan dibawah 0,50 tidak dapat diterima (unacceptable).
2). Uji Bartlett tentang bentuk matriks
korelasi (Bartlett’s test of sphericity). Uji ini dimaksudkan untuk memastikan
apakah matriks korelasi berasal dari matriks identitas atau bukan. Dalam uji
ini digunakan pendekatan Chisquare dan dibutuhkan data yang berasal dari
populasi normal multivariat. Dengan ketentuan bahwa bila matriks korelasi
merupakan matriks identitas (makriks dengan diagonal 1 dan selain diagonal 0)
maka tidak dapat digunakan analisis faktor, sebaliknya bila matriks korelasi
bukan matriks identitas maka dapat digunakan analisis faktor.
3). Banyaknya faktor. Banyaknya faktor
ditetapkan berdasarkan aturan yang dikemukakan oleh Norusis (1996) bahwa jumlah
faktor harus diekstraksi sama dengan jumlah faktor yang mempunyai varians
(eigenvalue) lebih besar dari 1,0.
4). Muatan faktor (factor loading). Muatan
faktor diseleksi setelah melalui ekstraksi komponen utama (extracting principal
component) dengan rotasi ortogonal untuk memaksimalkan varians (variance
maximizing/ varimax) antara variabel utama. Muatan faktor yang tetap
dipertahankan adalah di atas 0,3. Hal ini sesuai dengan aturan yang dikemukakan
oleh Crocker dan Algina (1996) bahwa muatan faktor yang lebih dari 0,3
cenderung siginifikan, sebaliknya muatan faktor yang kurang dari 0,3 tidak
dapat memberikan kontribusi yang siginifikan terhadap suatu faktor tertentu.
· Penyebab invaliditas
Ancaman utama terhadap validitas instrumen
adalah: (1) ketakterwakilan konstruk; menunjukkan bahwa tugas yang diukur dalam
penilaian tidak mencakup dimensi penting dari konstruk. Oleh karena itu, hasil
tes tersebut tidak mungkin untuk mengungkapkan kemampuan siswa sebenarnya dalam
konstruk yang hendak diukur oleh instrumen; (2) penyimpangan keragaman konstruk
berarti bahwa instrumen tersebut mengukur terlalu banyak variabel, dan
kebanyakan variabel tersebut tidak relevan terhadap isi konstruk. Jenis
penyimpangan validitas seperti ini mencakup dua bentuk, yaitu penyimpangan
kemudahan konstruk (Construct irrelevant easiness) dan penyimpangan kesukaran
konstruk (Construct irrelevant difficulty). Penyimpangan kemudahan konstruk
terjadi ketika faktor-faktor luar seperti kata-kata kunci atau bentuk instrumen
memungkinkan seseorang untuk menjawab benar dengan cara yang tidak sesuai
dengan konstruk yang diukur, dan penyimpangan kesukaran konstruk terjadi bila
aspek-aspek luar dari tugas membuat tingkat kesukaran tugas tidak sejalan
terhadap sebagian atau keseluruhan anggota kelompok. Sementara bila terjadi
penyimpangan keragaman konstruk yang pertama menyebabkan seseorang memperoleh
skor yang lebih tinggi dibanding dengan kemampuan yang sebenarnya, dan
terjadinya penyimpangan keragaman konstruk yang kedua menyebabkan seseorang
memperoleh skor yang lebih rendah dibanding dengan kemampuan yang sebenarnya.
b). Reliabilitas
Reliabilitas berasal dari kata reliable
yang berarti dapat dipercaya. Reliabilitas suatu tes menunjukan atau merupakan
sederajat ketetapan, keterandalan atau kemantapan (the level of consistency)
tes yang bersangkutan dalam mendapatkan data (skor) yang dicapai seseorang,
apabila tes tersebut diberikan kepadanya pada kesempatan (waktu) yang berbeda.,
atau dengan tes yang pararel (eukivalen) pada waktu yang sama. Atau dengan kata
lain sebuah tes dikatakan reliable apabila hasil-hasil tes tersebut menunjukan
ketetapan, keajegan, atau konsisten. Artinya, jika kepada para siswa diberikan
tes yang sama pada waktu yang berlainan, maka setiap siswa akan tetap berada
dalam urutan (ranking) yang sama dalam kelompoknya. Contoh:
Waktu tes
Nama siswa
Pengetesan
pertama
Pengetesan
Kedua
Ranking
Andi
6
7
3.a
Budi
5.5
6.6
4
Cici
8
9
1
Didi
5
6
5
Evi
6
7
3.b
Fifi
7
8
2
Reliabilitas telah didefinisikan dengan
cara yang berbeda oleh pengarang yang berbeda. Cara yang terbaik untuk membahas
reliabilitas adalah sejauhmana hasil pengukuran dari suatu instrumen mewakili
karakteristik yang diukur. Sebagai contoh, reliabilitas didefinisikan seberapa
besar konsistensi skor tes yang dicapai peserta tes pada pengujian ulang.
Definisi ini akan memuaskan jika skor tes dapat menggambarkan kemampuan peserta
tes; jika tidak maka skor tes tidak sistematis, tidak dapat diulangi atau tidak
terikat. Reliabilitas juga diartikan sebagai indikator ketidakhadiran kesalahan
acak. Jika kesalahan acak dapat diperkecil maka skor tes akan lebih konsisten
dari suatu pengujian ke pengujian berikutnya.
Definisi teoretis dari reliabilitas adalah
proporsi keragaman skor tes yang disebabkan oleh keragaman sistematis dalam
populasi peserta tes. Jika terdapat keragaman sistematis yang lebih besar dalam
suatu populasi dibanding dengan populasi lainnya, seperti dalam semua siswa
sekolah negeri dibandingkan hanya dengan kelas tertentu, tes akan mempunyai
reliabilitas lebih besar untuk populasi yang lebih bervariasi. Reliabilitas
adalah karakteristik bersama antara tes dan kelompok peserta tes. Reliabilitas
tes bervariasi dari suatu kelompok dengan kelompok lainnya.
Para profesional pengukuran menganggap
reliabilitas sebagai persyaratan utama suatu instrumen penilaian. Dalam teori
tes diakui bahwa skor tes akan valid (benar) jika skor tes tersebut reliabel
(Mehrens & Lehmann, 1991). Asumsi ini didasarkan pada suatu model
matematika teori tes dimana skor perolehan terdiri atas skor tulen dan skor
galat (obtained score = true score + error score). Semakin sedikit kesalahan
dalam suatu tes (yaitu semakin reliabel) semakin valid skor tes. Karenanya,
suatu penilaian yang tidak reliabel secara otomatis tidak valid.
Penekanan utama dalam mengumpulkan data
untuk menentukan reliabilitas tes adalah pada konsistensi dihubungkan dengan
reliabilitas skor atau reliabilitas penilai. Reliabilitas skor berarti bahwa
jika suatu tes telah diadministrasikan pada penempuh ujian untuk kedua kalinya,
maka penempuh ujian akan tetap memperoleh skor yang sama dengan
pengadministrasian yang pertama. Salah satu cara para spesialis pengukuran
dalam menentukan reliabilitas skor tes adalah melalui tes standar. Jika
penempuh ujian diuji kembali, mereka harus melengkapi tugas yang sama persis
dalam kondisi yang juga persis sama. Hal ini akan membantu dalam pencapaian hasil
tes yang konsisten.
Ada beberapa cara untuk mencari
reliabilitas suatu tes, antara lain :
1). Teknik Berulang
Tehnik ini adalah dengan memberikan tes
tersebut kepada sekelompok anak-anak dalam dua kesempatan yang berlainan.
misalnya suatu tes diberikan pada kepada group A. selang 3 hari atau seminggu
tes tes tersebut diberikan lagi kepada group A dengan syarat-syarat tertentu.
2). Teknik Bentuk Paralel
Teknik ini dipergunakan dua buah tes yang
sejenis (tetapi tidak identik), mengenai isinya; proses mental yang diukur,
tingkat kesukaran jumlah item dan aspek-aspek lain.
3). Teknik belah dua
Ada dua prosedur yang dapat digunakan dalam
tes belah dua ini yaitu :
Ø Prosedur ganjil-genap, artinya seluruh
item yang bernomor ganjil dikumpulkan menjadi satu kelompok dan yang bernomor
genap menjadi kelompok yang lain.
Ø Prosedur secara random, misalnya dengan
jalan lotre, atau dengan jalan menggunakan tabel bilangan random.
§ Ukuran Reliabilitas
Terdapat beberapa statistik yang digunakan
untuk menghitung stabilitas skor seperangkat tes dari suatu kelompok peserta
tes, yaitu: reliabilitas test-retest, reliabilitas split-half, dan reliabilitas
konsistensi internal.
Reliabilitas test-retest. Suatu koefisien
reliabilitas test-retest diperoleh dengan mengadministrasikan tes yang sama dua
kali dan mengkorelasikan skor tes tersebut. Dalam konsep, hal ini merupakan
ukuran konsistensi skor yang sempurna sebab memungkinkan pengukuran konsistensi
langsung dari suatu ujian ke ujian berikutnya. Namun, koefisien ini tidaklah direkomendasikan
dalam praktek, oleh karena masalah dan keterbatasannya, yaitu memerlukan dua
kali pengadministrasian tes yang sama dalam kelompok yang sama dan memerlukan
pemilihan waktu yang tepat. Jika interval waktunya singkat, mungkin skor siswa
akan sangat konsisten sebab mereka masih mengingat sebagian atau seluruh
pertanyaan dan jawaban mereka. Dan jika intervalnya lama, maka hasilnya akan
dipengaruhi oleh perubahan belajar dan kematangan yang terjadi pada diri siswa.
Reliabilitas Split-Half. Sesuai dengan
namanya, reliabilitas split-half adalah suatu koefisien yang diperoleh dengan
pembagian suatu skor tes ke dalam dua bagian yang masing-masing separuhnya,
kemudian kedua bagian skor tes tersebut dikorelasikan untuk menentukan
koefisien reliabilitasnya. Pembagian data dipecah atas nomor ganjil dan genap,
memecah butir-butir tes menjadi dua bagian yang sama jumlahnya, memilih butir
secara acak, atau berdasarkan keseimbangan materi dan tingkat kesukaran.
Pendekatan ini mempunyai suatu keuntungan, yakni hanya memerlukan satu kali
pengujian. Kelemahannya adalah koefisien yang dihasilkan akan bervariasi
tergantung bagaimana tes tersebut dipecah. Juga tidak cocok digunakan untuk
mengukur reliabilitas tes kecepatan (speed test), karena skor siswa dipengaruhi
oleh seberapa banyak butir tes yang dijawab dalam waktu yang tersedia.
Konsistensi internal. Konsistensi internal
tergantung pada interkorelasi butir tes, yang juga disebut homogenitas. Rumus
statistik terbaik yang digunakan untuk menentukan koefisien reliabilitas
konsistensi internal adalah: Alpha Cronbach dan Kuder-Richardson (KR-20 dan
KR-21). Kebanyakan program pengujian melaporkan bahwa hasil pengujian dengan
Alfa Cronbach secara fungsional setara dengan KR-20.
Keuntungan penggunaan statistik ini adalah
hanya memerlukan satu kali administrasi tes dan tidak tergantung pada pemecahan
materi tes. Sedangkan kerugiannya adalah akan efektif diterapkan jika tes hanya
mengukur area keterampilan tunggal. Hanya membutuhkan rerata skor tes,
simpangan baku atau varians, dan sejumlah butir, KR-20 adalah rumusan
reliabilitas yang paling sederhana. Dan rumus KR-21 hampir selalu menghasilkan
koefisien yang lebih rendah dari KR-20. Kesederhanaannya menjadikannya sebagai
rumus reliabilitas yang paling banyak digunakan khususnya untuk mengevaluasi
tes yang dikembangkan di kelas. Namun, rumus ini tidak dapat digunakan untuk
menentukan reliabilitas skor dikotomi.
§ Seberapa Tinggi Koefisien Reliabilitas
Reliabilitas tes adalah proporsi varians
tulen (true variance) dalam skor tes (Guilford, 1982). Penilaian kecukupan
koefisien reliabilitas tes dapat diacuh dari pendapat Aiken (1988) bahwa jika
tes akan digunakan untuk menentukan signifikansi perbedaan rerata skor dua
kelompok siswa maka koefisien reliabilitas sebesar 0,65 dianggap memuaskan. Dan
jika tes akan digunakan untuk membandingkan siswa yang satu dengan yang lainnya
maka paling tidak diperlukan koefisien reliabilitas sebesar 0,85. Untuk
menjelaskan keberartian koefisien reliabilitas dapat pula diacuh dari galat
baku pengukuran, yang dihitung dengan menggunakan rumus: ; dimana: Sm = galat
baku pengukuran; Sx = simpangan baku skor tes; dan rx = koefisien reliabilitas
tes.
Misalnya, dari hasil perhitungan koefisien
reliabilitas instrumen dengan menggunakan rumus Alpha Cronbach diperoleh 0,93
dengan galat baku pengukuran 6,88. Hal ini berarti bahwa tes tersebut sangat
terandalkan karena dapat mengukur 93 persen keragaman skor yang sebenarnya, dan
bila dalam jangka waktu tertentu dan dalam kondisi yang sama para responden
merespon kembali tes tersebut maka rentangan penyimpangan skor total yang
dicapai masing-masing responden berkisar antara + 6,88; jadi bila pada tes
pertama seseorang siswa memperoleh skor total 450 maka kemungkinan rentangan
skor total yang dicapai pada tes berikutnya adalah 450+ 6,88 atau paling
rendah 443,12 dan paling tinggi 456,88.
Jika tes yang diadministrasikan memiliki
konsekuensi tinggi, seperti tes yang digunakan untuk penempatan dalam
pendidikan, misalnya ujian akhir SMU, dan sertifikasi profesional, maka
diperlukan reliabilitas konsistensi internal yang tinggi paling sedikit di atas
0,90, dan paling baik jika di atas 0,95. Kesalahan klasifikasi yang disebabkan
oleh kesalahan pengukuran harus diperkecil. Tetapi perlu dicatat bahwa tidak
satu pun tes dengan sendirinya dapat digunakan untuk membuat suatu keputusan
penting bagi seseorang.
Tes di kelas tidak selalu membutuhkan
koefisien reliabilitas tinggi. Ketika para siswa lebih menguasai materi yang
diujikan, variabilitas tes akan menurun, sehingga reliabilitas tes juga akan
menurun. Para guru mengawasi siswa mereka sepanjang hari dan mempunyai peluang
untuk mengumpulkan masukan dari berbagai sumber informasi. Jika pengetahuan dan
pertimbangan guru digunakan bersama dengan informasi yang diperoleh dari tes,
maka akan dapat menyediakan informasi yang lebih lengkap. Jika suatu tes tidak
reliabel atau tidak akurat untuk siswa secara perorangan, maka guru perlu
membuat koreksi penyesuaian. Suatu koefisien reliabilitas sebesar 0.50 atau
0.60 mungkin cukup untuk tes di kelas.
Selanjutnya, reliabilitas adalah
karakteristik bersama antara tes dan kelompok peserta tes. Reliabilitas juga
perlu dievaluasi dalam kaitan dengan kelompok peserta tes. Suatu tes dengan
koefisien reliabilitas 0.92 ketika diujikan pada siswa dalam beberapa kelas
maka koefisien reliabilitas yang diperoleh tidak akan sama jika tes tersebut
hanya diujikan pada satu kelas saja.
Reliabilitas berhubungan dengan konsistensi
hasil pengukuran. Reliabiltas dipengaruhi oleh cakupan instrumen penilaian. Misalnya,
suatu instrumen tes tertentu yang mencakup sasaran belajar dan butir yang
terbatas memiliki reliabilitas yang lebih rendah dibanding dengan tes yang
mencakup sasaran belajar yang lebih luas dengan jumlah butir yang lebih banyak.
Instrumen yang representatif dengan
kesalahan pengukuran yang relatif kecil akan memiliki reliabilitas tinggi.
Kesalahan pengukuran dapat diperkecil melalui penulisan butir instrumen yang
jelas, petunjuk yang mudah dipahami, administrasi instrumen yang sesuai, dan
penskoran yang konsisten. Suatu instrumen tes adalah suatu sampel perilaku dari
keterampilan yang diinginkan, tes lebih panjang dengan sampel yang lebih besar,
memungkinkan untuk lebih reliabel. Hasil ujian akhir dari suatu unit
pembelajaran dengan waktu satu jam akan lebih reliabel ketimbang hasil ujian
harian dengan jangkauan materi dan waktu yang terbatas.
§ Ancaman terhadap Reliabilitas
Semua jenis instrumen tes atau nontes tidak
terlepas kesalahan. Hal ini berlaku untuk instrumen tes dalam ilmu-ilmu eksakta
dan dalam ilmu-ilmu psikologi dan pendidikan. Misalnya, dalam mengukur panjang
dengan suatu penggaris, mungkin ada kesalahan sistematis berhubungan dengan di
mana titik nol dicetak pada penggaris dan kesalahan acak berhubungan dengan
kemampuan mata dalam membaca tanda-tanda dan memperhitungkan tanda-tanda
tersebut. Juga memungkinkan bahwa panjang obyek dapat berubah dari waktu ke
waktu dan pada lingkungan yang berbeda (misalnya perubahan temperatur). Salah
satu tujuan penilaian adalah untuk mengurangi kesalahan tersebut hingga ke
tingkatan yang sesuai dengan tujuan tes. Tes yang beresiko tinggi (high-stakes
tes), seperti ujian untuk mendapatkan SIM, harus mempunyai kesalahan yang
sangat kecil. Tes di kelas dapat mentolerir kesalahan yang lebih tinggi secara
wajar kesalahan tersebut mudah dikoreksi sepanjang proses pengujian.
Reliabilitas hanya mengacu pada derajat tingkat kesalahan yang tidak
sistematis, yang disebut kesalahan acak.
Ada tiga sumber kesalahan utama, yaitu:
faktor dalam tes itu sendiri, faktor siswa yang dites, dan faktor penskoran.
Umumnya tes berisi suatu koleksi butir yang mengukur keterampilan tertentu.
Adakalanya guru secara khas menggeneralisasikan masing-masing butir tes ke
semua materi yang diukur oleh tes itu. Sebagai contoh, jika seorang siswa dapat
memecahkan beberapa permasalahan seperti 7x8, maka mungkin akan disamaratakan
kemampuannya dalam mengalikan angka tunggal bilangan bulat. Juga mungkin akan
menyamaratakan suatu kumpulan materi kepada suatu domein yang lebih luas. Jika
siswa dapat menyelesaikan penjumlahan, pengurangan, perkalian, dan pembagian,
maka mungkin akan disimpulkan bahwa siswa tersebut mampu menyele-saikan operasi
pecahan. Kesalahan dapat pula disebabkan oleh pemilihan butir untuk mengukur
domein dan keterampilan tertentu. Materi yang tercakup dalam tes berbeda
menurut format masing-masing tes, kesalahan pensampelan, pembatasan butir tes,
dan karena menyamaratakan ke data yang tidak diamati, yakni, kemampuan siswa
terhadap keseluruhan butir yang mungkin terdapat dalam tes. Ketika keterampilan
dan domain yang diukur menjadi lebih rumit, mungkin akan terjadi lebih banyak
kesalahan yang disebabkan oleh pensampelan materi. Sumber lain kesalahan tes
adalah ketidakefektifan pengecoh dalam tes pilihan ganda, seperti jawaban benar
yang lebih banyak, dan tingkat kesukaran butir tes.
Sebagai manusia, para siswa tidaklah selalu
konsisten dan juga tidak terlepas dari kesalahan dalam menyelesaikan tes.
Apakah tes itu dimaksudkan untuk mengukur kemampuan khusus atau kemampuan siswa
secara optimal, perubahan dalam berbagai hal seperti sikap siswa, kesehatan,
dan rasa kantuk dapat mempengaruhi kualitas usaha dan konsistensi siswa dalam
menyelesaikan tes. Sebagai contoh, peserta tes mungkin membuat kesalahan karena
teledor, salah menafsirkan petunjuk tes, melupakan instruksi tes, melupakan
beberapa butir tes, atau salah baca butir tes.
Kesalahan penskoran merupakan sumber
sepertiga dari kesalahan potensial. Pada bentuk tes objektif, penskoran
bersifat mekanik, dan kesalahan penskoran harus diperkecil. Pada tes uraian,
sumber kesalahan meliputi ketidakjelasan rubrik penskoran, ketidakjelasan apa
yang diharapkan dari siswa, dan beberapa kesalahan yang bersumber dari penilai.
Para penilai tidaklah selalu konsisten, kadang-kadang merubah ukuran-ukuran
mereka selagi menskor, dan terkadang terpengaruh oleh hal-hal yang tidak
berhubungan dengan skor tes seperti efek halo, latar belakang siswa, perbedaan
persepsi, kebaikan hati atau kepelikan, dan kesalahan dalam penskalaan (Rudner,
1992).
c). Objektivitas
Sebuah tes dikatakan memiliki objektivitas
apabila dalam melaksanakan tes itu tidak ada faktor subyektif yang
mempengaruhi. Hal ini terutama pada sistem skoringnya, apabila dikaitkan dengan
reliabilitas maka obyektivitas menekankan ketetapan pada sistem skoring,
sedangkan reliabilitas menekankan ketetapan dalam hasil tes. Ada dua faktor
yang mempengaruhi subjektivitas dari sesuatu tes yaitu bentuk tes dan
penilaian.
d). Praktikabilitas
Sebuah tes dikatakan memiliki
praktikabilitas yang tinggi apabila tes itu bersifat praktis, mudah untuk
pengadministrasiannya. Tes yang praktis adalah tes yang:
1). Mudah dilaksanakannya; misalnya tidak
menuntut peralatan yang banyak dan memberi kebebasan kepada siswa untuk
mengerjakan terlebih dahulu bagian yang dianggap mudah oleh siswa.
2). Mudah memeriksanya artinya bahwa tes
itu dilengkapi dengan kunci jawaban maupun pedoman skoringnya. Untuk soal yang
obyektif, pemeriksaan akan lebih mudah dilakukan jika dikerjakan oleh siswa
dalam lembar jawaban.
3). Dilengkapi dengan petunjuk-petunjuk
yang jelas sehingga dapat diberikan/ diawali oleh orang lain
e). Ekonomis
Yang dimaksud dengan ekonomis ialah bahwa
pelaksanaan tes tersebut tidak membutuhkan ongkos/biaya yang mahal, tenaga yang
banyak dan waktu yang lama, baik untuk memproduksinya maupun untuk melaksanakan
dan mengolah hasilnya.
Dengan mempertimbangkan kriteria-kriteria
tes tersebut, sewajarnya dapat dihasilkan alat tes (sosal-soal) yang
berkualitas yang memenuhi syarat-syarat dibawah ini :
1). Shahih (valid), yaitu mengukur yang
harus diukur, sesuai dengan tujuan
2). Relevan, dalam arti yang diuji sesuai
dengan tujuan yang diinginkan
3). Spesifik, soal yang hanya dapat dijawab
oleh peserta didik yang betul-betul belajar dengan rajin
4). Tidak mengandung ketaksaan (tafsiran
ganda). harus ada patokan; tugas ditulis konkret. Apa yang harus diminta; harus
dijawab berapa lengkap
5). Representatif, soal mewakili materi
ajar secara keseluruhan
6). Seimbang, dalam arti pokok-pokok yang
penting diwakili, dan yang tidak penting tidak selalu perlu.