REVIEW ARTIFICIAL INTELLIGENCE DALAM MENGUKUR PRESENTASE TINGKAT KEMIRIPAN (PLAGIATRISME)
REVIEW
ARTIFICIAL INTELLIGENCE DALAM MENGUKUR PRESENTASE TINGKAT KEMIRIPAN
(PLAGIARISME)
SANI ROSA
SISTEM
INFORMASI - FAKULTAS ILMU KOMPUTER - GUNADARMA
SANITAURUS21@GMAIL.COM
KIMIKIMIKIMIK@BLOGSPOT.COM
ABSTRAK
Berkembangnya
teknologi informasi dan komunikasi yang semakin pesat menyebabkan pencarian
data dan informasi semakin mudah dan cepat. Namun perkebangan teknologi
informasi ini justru menimbulkan berbagai macam dampak negatif, salah satunya
plagiarisme. Plagiatrisme atau yang sering di sebut dengan tindakan plagiat
adalah penjiplakan atau pengambilan karangan, pendapat, dan sebagainya dari
orang lain dan menjadikannya seolah karangan dan pendapat sendiri. Seperti
mahasiswa yang sedang membuat penulisan ilmiah skripsi, terjadi tindakan
plagiat dalam menyalin data (copy and paste). Adanya persamaan judul
penulisan ilmiah skripsi antar mahasiswa membuat mahasiswa melakukan penyalinan
data atau teks, sehingga memicu terjadinya penulisan ilmiah yang sama karena bersumber
dari data yang sama, hal ini juga di dukung melimpahnya sumber informasi di
internet. Untuk mendeteksi adanya tingkat kesamaan sumber data dokumen dan
source code dapat dilakukan beberapa pendekatan yang sudah banyak di pakai.
Pada penelitian ini akan di paparkan beberapa metode pendeteksi plagiat,
sebagai solusi dari masalah tindakan plagiat yang telah terjadi selama ini.
Dengan adanya beberapa metode pendekatan yang sudah banyak dipakai otomatis
untuk mendeteksi tindakan plagiat, seperti Algoritma Rabin-Karp dan algoritma
levenshtein diharapkan dapat menghasilkan prosentase akurasi yang tinggi, hal
ini dimungkinkan masing-masing pendekatan memiliki beberapa kelemahan dan
kelebihan. Analisa model dapat menciptakan prosentase kemiripan yang tinggi
dalam membandingkan dokumen karena antara pendekatan yang satu dengan yang
lainnya bisa saling menutupi kekurangan.
Kata Kunci : Plagiarisme, Rabin-Karp, Hashing, simalirity
PENDAHULUAN
Dalam dunia
pendidikan terkadang sering terjadi praktik plagiarisme (penjiplakan) dalam
penelitian dan penulisan ilmiah bagi mahasiswa. Penjiplakan atau plagiat
menurut Permendiknas, (Pencegahan dan Penanggulangan Plagiat di Perguruan
Tinggi, No 7, Pasal 1 ayat 1 2010) Plagiarisme atau yang sering di sebut dengan
tindakan plagiat adalah penjiplakan atau pengambilan karangan, pendapat, dan
sebagainya dari orang lain dan menjadikannya seolah karangan dan pendapat
sendiri.
Penjiplakan di
dunia pendidikan, (Universitas Pendidikan Indonesia 2012: 1-15) biasa terjadi
jika seperti mahasiswa yang sedang membuat penulisan ilmiah terjadi tindakan
plagiat dalam menyalin data (copy and paste) skripsi dengan banyaknya
fasilitas internet, memudahkan para mahasiswa untuk melakukan tindakan plagiat.
Tindak plagiat
kerap muncul dalam berbagai versi ada yang melakukan pengambilan keseluruhan
dokumen karya orang lain dan menyebutnya karya sendiri, ada yang menulis
kembali menerbitkannya, ada yang hanya menggunakan sebagian karya orang lain
dengan mengabung-gabungkan beberapa karya orang lain.
Penulisan karya
tulis ilmiah adalah kasus paling banyak terjadinya tindakan plagiat dalam dunia
pendidikan yang dilakukan mahasiswa dan pengajar (Pikiran
Rakyat, 2/3/212), karena teknologi yang menunjang dan adanya kemiripan
judul penulisan ilmiah antar mahasiswa, sehingga membuat mahasiswa melakukan
penyalinan teks atau data (copy and paste) pada penulisan
ilmiah skripsi sehingga memungkinkan terjadinya penulisan ilmiah yang sama
karena bersumber dari data yang sama dengan melimpahnya segala sumber informasi
hanya dengan mengakses internet membuat semakin banyaknya jenis plagiat dalam
segala bentuk.
Berbagai macam cara
telah dilakukan oleh para peneliti untuk mengurangi tindakan plagiat. Untuk
meminimalisasi praktik plagiarisme, diperlukan pendeteksian terhadap penulisan
sebuah karya tulis. Oleh karena itu perlu dibuat sebuah algoritma dalam bentuk
aplikasi yang dapat mendeteksi kemiripan sebuah dokumen dengan dokumen lainnya
yang dijadikan sebagai pembanding. Berdasarkan latar belakang diatas, maka
penulis mencoba untuk melakukan analisis dan kajian terhadap adanya tindakan
plagiat pada dokumen penulisan ilmiah dengan judul "Artificial
Intelligence dalam membandingkan dokumen untuk mengukur prosentase
kemiripan, studi kasus: pada Teknik Informatika di Perguruan Tinggi
Raharja".
GAMBARAN UMUM
Definisi
Plagiatrisme
Mendahului
pembahasan lebih mendalam dari topik yang diangkat, penulis menjabarkan
Definisi yang digunakan dalam menyatakan tindakan plagiarisme. Plagiarisme
adalah tindakan penyalahgunaan, pencurian atau perampasan, penerbitan,
pernyataan, atau menyatakan sebagai milik sendiri sebuah pikiran, ide, tulisan,
atau ciptaan yang sebenarnya milik orang lain (Ardini Ridhatillah, 2003:511)[25].
Sistem pendeteksi plagiarisme dapat di kembangkan untuk:
- Data teks seperti essay, artikel, jurnal,
penelitian dan sebagainya.
- Dokumen teks yang lebih terstruktur seperti
bahasa pemrograman.
Tipe-tipe
Plagiatrisme
- Word-for-word plagiarism Menyalin setiap kata
secara langsung tanpa diubah sedikitpun.
- Plagirism of authorship Mengakui hasil karya
orang lain sebagai hasil karya sendiri dengancara mencantumkan nama
sendiri menggantikan nama pengarang yang sebenarnya.
- Plagiarism of ideas Mengakui hasil pemikiran
atau ide orang lain.
- Plagiarism of sources Jika seorang penulis
menggunakan kutipan dari penulis lainnya tanpa mencantumkan sumbernya.
A. Pencocokan Kata
String Matching atau pencocokan string adalah suatu metode yang digunakan untuk
menemukan suatu keakuratan/hasil dari satu atau beberapa pola teks yang
diberikan. String Matching marupakan pokok bahasan yang penting dalam ilmu
computer karena teks merupakan bentuk utama dari pertukaran informasi antar
manusia, misalkan pada literature, karya ilmiah, halaman web dsb [5]. String
Matching focus pada pencarian satu, atau lebih umum, semua kehadiran sebuah
kata (lebih umum disebut pattern) dalam sebuah teks. Semua algoritma yang akan
dibahas mengeluarkan semua kehadiran pola teks. Pola dinotasikan sebagai x =
x[0….m-1]; m adalah panjangnnya. Teks dinotasikan sebagai y = y[0….n1]; n
adalah panjannya. Kedua string dibentuk dari set karakter yang disebut alphabet
dinotasikan ∑ dengan ukuran σ[6].
B. Algoritma Rabin
Karp Algoritma Karp-Rabin diciptakan oleh Michael O.Rabin dan Richard M. Karp
pada tahun 1978 dengan menggunakan fungsi hashig untuk menemukan pattern di
dalam string teks [7]. Pada dasarnya, algoritma Rabin-Karp akan membandingkan
nilai hash dari string masukan dan substring pada teks. Apabila sama, maka akan
dilakukan perbandingan sekali lagi terhadap karakterkarakternya. Apabila tidak
sama, maka substring akan bergeser ke kanan. Kunci utama performa algoritma ini
adalah perhitungan yang efisien terhadap nilai hash substring pada saat
penggeseran dilakukan [8]. Berikut ini adalah ilustrasi dari konsep algoritma
Rabin-Karp. Diberikan masukan “cab” dan teks “aabbcaba”. Fungsi hash yang dipakai
misalnya akan menambahkan nilai keterurutan setiap huruf dalam alphabet (a = 1,
b = 2, dst) dan melakukan modulo dengan 3. Didapatkan nilai hash dari “cab”
adalah 0 dan tiga karakter pertama pada teks yaitu “aab” adalah 1 [9].
Gambar 1.
Fingerprint
awal Hasil
perbandingan ternyata tidak sama, maka substring pada teks akan bergeser satu
karakter ke kanan. Algoritma tidak menghitung kembali nilai hash substring.
Disinilah dilakukan apa yang disebut rooling hash yaitu mengurangi nilai
karakter yang keluar dan menambahkan nilai karakter yang masuk sehingga
didapatkan kompleksitas waktu yang relative konstan pada setiap kali
pergeseran.
Gambar 2. Menggeser
fingerprint
Setelah pergeseran,
didapatkan nilai hash dari fingerprint “abb” (abb = aab – a + b) menjadi dua (2
= 1 – 1 + 2).
Gambar 3.
Pembandingan kedua
Hasil perbandingan
juga tidak sama, maka dilakukan pergeseran. Begitu pula dengan perbandingan
ketiga. Pada perbandingan keempat, didapatkan nilai hash yang sama.
Gambar 4.
Perbandingan keempat (nilai hash sama)
Karena nilai hash
sama, maka dilakukan perbandingan string karakter per karakter antara “bca” dan
“cab”. Didapatkan hasil bahwa kedua string tidak sama. Kembali substring
bergeser ke kanan.
Gambar 5.
Perbandingan kelima (srting ditemukan)
Pada perbandingan
yang kelima, kedua nilai hash dan karakter pembentuk string sesuai, sehingga
solusi ditemukan. Dari hasil perhitungan, kompleksitas waktu yang dibutuhkan
adalah O(m+n) dengan m adalah paling panjang string masukan dan n adalah jumlah
looping yang dilakukan untuk menemukan solusi. Hasil ini jauh lebih mangkus
daripada kompleksitas waktu yang didapat menggunakan algoritma brute-force
yaitu O(mn) [8].
C. K-Gram K-grams
adalah rangkaian terms dengan panjang K. kebanyakan yang digunakan sebagai
terms adalah kata. K-grams merupakan sebuah metode yang diaplikasikan untuk pembanding kata atau
karakter. Metode K-grams ini digunakan untuk mengambil potongan-potongan
karakter huruf sejumlah k dari sebuah kata yang secara kontinuitas dibaca dari
teks sumber hingga akhir dari dokumen.
D. Pengukuran Nilai
Similarity Inti dari pendekatan K-grams dibagi menjadi dua tahap. Pada tahap
pertama, membagi kata menjadi Kgrams. Sedangkan pada tahap kedua,
mengelompokkan hasil terms dari Kgrams yang sama. Kemudian untuk menghitung
similarity dari kumpulan kata tersebut, maka digunakan Dice’s Similarity
Coefficient untuk pasangan kata yang digunakan [5]. Untuk menghitung nilai
similaritas, digunakan hitungan sebagai berikut :
S = Dimana S adalah nilai
similarity, A dan B adalah jumlah dari kumpulan K-grams dalam teks 1 dan teks
2. C adalah jumlah dari K-grams yang sama dari kedua teks yang dibandingkan. Contoh
perhitungan nilai similarity 3 kata dengan K = 2 (bi-grams)
Tabel 1.
Perhitungan Nilai Similarity 3 kata dengan K = 2
E. Pengukuran Untuk
menentukan jenis plagiarism antara dokumen yang diuji ada 5 jenis penilaian
persentase similirarity [9] :
1. 0% : Hasil uji
0% berarti kedua dokumen tersebut benar-benar berbeda baik dari segi isi dan
kalimat secara keseluruhan.
2. < 15% : Hasil
uji 15% berarti kedua dokumen tersebut hanya mempunyai sedikit kesamaan.
3. 15-50% : Hasil
uji 15-50% berarti menandakan dokumen tersebut termasuk plagiat tingkat sedang.
4. > 50% : Hasil
uji lebih besar 50% berarti dapat dikatakan bahwa Kata yang dibandingaka n (*)
K-grams yang sama Simila rity Photography (9) dan Photographic (10) Ph ho ot to
gr ra ap ph = 8 2*8/(9 +10)= 0.84 Photography (9) dan Phonetic (7) Ph ho = 2
2*2/(9 +7) = 0.25 Photographic (10) dan Phonetic (7) Ph ho ic = 3 2*3/(1 0+7)=
0.35 Nusantara of Engineering/Vol. 3/ No. 2/ISSN: 2355-6684 12 dokumen tersebut
mendekati plagiarisme.
5. 100% : Hasil uji
100% menandakan bahwa dokumen tersebut adalah plagiat karena dari awal sampai
akhir mempunyai isi yang sama persis.
PENUTUP
Dibalik kemudahan yang didapat seperti kemudahan dalam menyalin dokumen
atau data digital, terdapat kecenderungan tindakan negatif yang didominasi
kepentingan pribadi salah satunya yaitu plagiarisme. Plagiarisme adalah
kegiatan meniru suatu hasil karya orang lain untuk kemudian diakui sebagai
karya pribadi. Fenomena plagiarisme juga rawan terjadi pada lingkungan
akademis. Misalnya mahasiswa yang kebingungan akan mengerjakan tugas akhir atau
skripsi dan belum memiliki tema atau judul skripsi, maka jalan pintas yang bisa
ditempuh adalah dengan melakukan plagiarisme.Dengan menggunakan sistem ini kita
dapat mendeteksi dan mencegah plagiarisme.
DAFTAR PUSTAKA
1. Aplikasi
Pendeteksi Plagiarisme Dalam Karya Tulis Ilmiah Dengan Algoritma Rabin Karph :
https://repository.usd.ac.id/11940/2/125314083_full.pdf
2. Pencegah Plagiasi Dengan Deteksi Kemiripan
Judul Skripsi:
http://ojs.unpkediri.ac.id/index.php/ti/article/download/12336/967/
3. Sinonim Dan Word
Sense Disambiguation Untuk Melengkapi Detektor Plagiat Dokumen Tugas Akhir : https://docplayer.info/34374357-Sinonim-dan-word-sense-disambiguation-untuk-melengkapi-detektor-plagiat-dokumen-tugas-akhir-devi-dwi-purwanto.html
Komentar
Posting Komentar