REVIEW ARTIFICIAL INTELLIGENCE DALAM MENGUKUR PRESENTASE TINGKAT KEMIRIPAN (PLAGIATRISME)


REVIEW ARTIFICIAL INTELLIGENCE DALAM MENGUKUR PRESENTASE TINGKAT KEMIRIPAN (PLAGIARISME)


SANI ROSA

SISTEM INFORMASI - FAKULTAS ILMU KOMPUTER - GUNADARMA

SANITAURUS21@GMAIL.COM

KIMIKIMIKIMIK@BLOGSPOT.COM

ABSTRAK

Berkembangnya teknologi informasi dan komunikasi yang semakin pesat menyebabkan pencarian data dan informasi semakin mudah dan cepat. Namun perkebangan teknologi informasi ini justru menimbulkan berbagai macam dampak negatif, salah satunya plagiarisme. Plagiatrisme atau yang sering di sebut dengan tindakan plagiat adalah penjiplakan atau pengambilan karangan, pendapat, dan sebagainya dari orang lain dan menjadikannya seolah karangan dan pendapat sendiri. Seperti mahasiswa yang sedang membuat penulisan ilmiah skripsi, terjadi tindakan plagiat dalam menyalin data (copy and paste). Adanya persamaan judul penulisan ilmiah skripsi antar mahasiswa membuat mahasiswa melakukan penyalinan data atau teks, sehingga memicu terjadinya penulisan ilmiah yang sama karena bersumber dari data yang sama, hal ini juga di dukung melimpahnya sumber informasi di internet. Untuk mendeteksi adanya tingkat kesamaan sumber data dokumen dan source code dapat dilakukan beberapa pendekatan yang sudah banyak di pakai. Pada penelitian ini akan di paparkan beberapa metode pendeteksi plagiat, sebagai solusi dari masalah tindakan plagiat yang telah terjadi selama ini. Dengan adanya beberapa metode pendekatan yang sudah banyak dipakai otomatis untuk mendeteksi tindakan plagiat, seperti Algoritma Rabin-Karp dan algoritma levenshtein diharapkan dapat menghasilkan prosentase akurasi yang tinggi, hal ini dimungkinkan masing-masing pendekatan memiliki beberapa kelemahan dan kelebihan. Analisa model dapat menciptakan prosentase kemiripan yang tinggi dalam membandingkan dokumen karena antara pendekatan yang satu dengan yang lainnya bisa saling menutupi kekurangan.

Kata Kunci  : Plagiarisme, Rabin-Karp, Hashing, simalirity

PENDAHULUAN

Dalam dunia pendidikan terkadang sering terjadi praktik plagiarisme (penjiplakan) dalam penelitian dan penulisan ilmiah bagi mahasiswa. Penjiplakan atau plagiat menurut Permendiknas, (Pencegahan dan Penanggulangan Plagiat di Perguruan Tinggi, No 7, Pasal 1 ayat 1 2010) Plagiarisme atau yang sering di sebut dengan tindakan plagiat adalah penjiplakan atau pengambilan karangan, pendapat, dan sebagainya dari orang lain dan menjadikannya seolah karangan dan pendapat sendiri.
Penjiplakan di dunia pendidikan, (Universitas Pendidikan Indonesia 2012: 1-15) biasa terjadi jika seperti mahasiswa yang sedang membuat penulisan ilmiah terjadi tindakan plagiat dalam menyalin data (copy and paste) skripsi dengan banyaknya fasilitas internet, memudahkan para mahasiswa untuk melakukan tindakan plagiat.
Tindak plagiat kerap muncul dalam berbagai versi ada yang melakukan pengambilan keseluruhan dokumen karya orang lain dan menyebutnya karya sendiri, ada yang menulis kembali menerbitkannya, ada yang hanya menggunakan sebagian karya orang lain dengan mengabung-gabungkan beberapa karya orang lain.
Penulisan karya tulis ilmiah adalah kasus paling banyak terjadinya tindakan plagiat dalam dunia pendidikan yang dilakukan mahasiswa dan pengajar (Pikiran Rakyat, 2/3/212), karena teknologi yang menunjang dan adanya kemiripan judul penulisan ilmiah antar mahasiswa, sehingga membuat mahasiswa melakukan penyalinan teks atau data (copy and paste) pada penulisan ilmiah skripsi sehingga memungkinkan terjadinya penulisan ilmiah yang sama karena bersumber dari data yang sama dengan melimpahnya segala sumber informasi hanya dengan mengakses internet membuat semakin banyaknya jenis plagiat dalam segala bentuk.
Berbagai macam cara telah dilakukan oleh para peneliti untuk mengurangi tindakan plagiat. Untuk meminimalisasi praktik plagiarisme, diperlukan pendeteksian terhadap penulisan sebuah karya tulis. Oleh karena itu perlu dibuat sebuah algoritma dalam bentuk aplikasi yang dapat mendeteksi kemiripan sebuah dokumen dengan dokumen lainnya yang dijadikan sebagai pembanding. Berdasarkan latar belakang diatas, maka penulis mencoba untuk melakukan analisis dan kajian terhadap adanya tindakan plagiat pada dokumen penulisan ilmiah dengan judul "Artificial Intelligence dalam membandingkan dokumen untuk mengukur prosentase kemiripan, studi kasus: pada Teknik Informatika di Perguruan Tinggi Raharja".

GAMBARAN UMUM

Definisi Plagiatrisme
Mendahului pembahasan lebih mendalam dari topik yang diangkat, penulis menjabarkan Definisi yang digunakan dalam menyatakan tindakan plagiarisme. Plagiarisme adalah tindakan penyalahgunaan, pencurian atau perampasan, penerbitan, pernyataan, atau menyatakan sebagai milik sendiri sebuah pikiran, ide, tulisan, atau ciptaan yang sebenarnya milik orang lain (Ardini Ridhatillah, 2003:511)[25]. Sistem pendeteksi plagiarisme dapat di kembangkan untuk:
  1. Data teks seperti essay, artikel, jurnal, penelitian dan sebagainya.
  2. Dokumen teks yang lebih terstruktur seperti bahasa pemrograman.
Tipe-tipe Plagiatrisme
  1. Word-for-word plagiarism Menyalin setiap kata secara langsung tanpa diubah sedikitpun.
  2. Plagirism of authorship Mengakui hasil karya orang lain sebagai hasil karya sendiri dengancara mencantumkan nama sendiri menggantikan nama pengarang yang sebenarnya.
  3. Plagiarism of ideas Mengakui hasil pemikiran atau ide orang lain.
  4. Plagiarism of sources Jika seorang penulis menggunakan kutipan dari penulis lainnya tanpa mencantumkan sumbernya.
A. Pencocokan Kata String Matching atau pencocokan string adalah suatu metode yang digunakan untuk menemukan suatu keakuratan/hasil dari satu atau beberapa pola teks yang diberikan. String Matching marupakan pokok bahasan yang penting dalam ilmu computer karena teks merupakan bentuk utama dari pertukaran informasi antar manusia, misalkan pada literature, karya ilmiah, halaman web dsb [5]. String Matching focus pada pencarian satu, atau lebih umum, semua kehadiran sebuah kata (lebih umum disebut pattern) dalam sebuah teks. Semua algoritma yang akan dibahas mengeluarkan semua kehadiran pola teks. Pola dinotasikan sebagai x = x[0….m-1]; m adalah panjangnnya. Teks dinotasikan sebagai y = y[0….n1]; n adalah panjannya. Kedua string dibentuk dari set karakter yang disebut alphabet dinotasikan ∑ dengan ukuran σ[6].

B. Algoritma Rabin Karp Algoritma Karp-Rabin diciptakan oleh Michael O.Rabin dan Richard M. Karp pada tahun 1978 dengan menggunakan fungsi hashig untuk menemukan pattern di dalam string teks [7]. Pada dasarnya, algoritma Rabin-Karp akan membandingkan nilai hash dari string masukan dan substring pada teks. Apabila sama, maka akan dilakukan perbandingan sekali lagi terhadap karakterkarakternya. Apabila tidak sama, maka substring akan bergeser ke kanan. Kunci utama performa algoritma ini adalah perhitungan yang efisien terhadap nilai hash substring pada saat penggeseran dilakukan [8]. Berikut ini adalah ilustrasi dari konsep algoritma Rabin-Karp. Diberikan masukan “cab” dan teks “aabbcaba”. Fungsi hash yang dipakai misalnya akan menambahkan nilai keterurutan setiap huruf dalam alphabet (a = 1, b = 2, dst) dan melakukan modulo dengan 3. Didapatkan nilai hash dari “cab” adalah 0 dan tiga karakter pertama pada teks yaitu “aab” adalah 1 [9].


Gambar 1. Fingerprint

awal Hasil perbandingan ternyata tidak sama, maka substring pada teks akan bergeser satu karakter ke kanan. Algoritma tidak menghitung kembali nilai hash substring. Disinilah dilakukan apa yang disebut rooling hash yaitu mengurangi nilai karakter yang keluar dan menambahkan nilai karakter yang masuk sehingga didapatkan kompleksitas waktu yang relative konstan pada setiap kali pergeseran.

Gambar 2. Menggeser fingerprint

Setelah pergeseran, didapatkan nilai hash dari fingerprint “abb” (abb = aab – a + b) menjadi dua (2 = 1 – 1 + 2).

Gambar 3. Pembandingan kedua

Hasil perbandingan juga tidak sama, maka dilakukan pergeseran. Begitu pula dengan perbandingan ketiga. Pada perbandingan keempat, didapatkan nilai hash yang sama.

Gambar 4. Perbandingan keempat (nilai hash sama)

Karena nilai hash sama, maka dilakukan perbandingan string karakter per karakter antara “bca” dan “cab”. Didapatkan hasil bahwa kedua string tidak sama. Kembali substring bergeser ke kanan.

Gambar 5. Perbandingan kelima (srting ditemukan)

Pada perbandingan yang kelima, kedua nilai hash dan karakter pembentuk string sesuai, sehingga solusi ditemukan. Dari hasil perhitungan, kompleksitas waktu yang dibutuhkan adalah O(m+n) dengan m adalah paling panjang string masukan dan n adalah jumlah looping yang dilakukan untuk menemukan solusi. Hasil ini jauh lebih mangkus daripada kompleksitas waktu yang didapat menggunakan algoritma brute-force yaitu O(mn) [8].

C. K-Gram K-grams adalah rangkaian terms dengan panjang K. kebanyakan yang digunakan sebagai terms adalah kata. K-grams merupakan sebuah metode yang diaplikasikan untuk pembanding kata atau karakter. Metode K-grams ini digunakan untuk mengambil potongan-potongan karakter huruf sejumlah k dari sebuah kata yang secara kontinuitas dibaca dari teks sumber hingga akhir dari dokumen.

D. Pengukuran Nilai Similarity Inti dari pendekatan K-grams dibagi menjadi dua tahap. Pada tahap pertama, membagi kata menjadi Kgrams. Sedangkan pada tahap kedua, mengelompokkan hasil terms dari Kgrams yang sama. Kemudian untuk menghitung similarity dari kumpulan kata tersebut, maka digunakan Dice’s Similarity Coefficient untuk pasangan kata yang digunakan [5]. Untuk menghitung nilai similaritas, digunakan hitungan sebagai berikut :
 S = Dimana S adalah nilai similarity, A dan B adalah jumlah dari kumpulan K-grams dalam teks 1 dan teks 2. C adalah jumlah dari K-grams yang sama dari kedua teks yang dibandingkan. Contoh perhitungan nilai similarity 3 kata dengan K = 2 (bi-grams) 

Tabel 1. Perhitungan Nilai Similarity 3 kata dengan K = 2

E. Pengukuran Untuk menentukan jenis plagiarism antara dokumen yang diuji ada 5 jenis penilaian persentase similirarity [9] :
1. 0% : Hasil uji 0% berarti kedua dokumen tersebut benar-benar berbeda baik dari segi isi dan kalimat secara keseluruhan.
2. < 15% : Hasil uji 15% berarti kedua dokumen tersebut hanya mempunyai sedikit kesamaan.
3. 15-50% : Hasil uji 15-50% berarti menandakan dokumen tersebut termasuk plagiat tingkat sedang.
4. > 50% : Hasil uji lebih besar 50% berarti dapat dikatakan bahwa Kata yang dibandingaka n (*) K-grams yang sama Simila rity Photography (9) dan Photographic (10) Ph ho ot to gr ra ap ph = 8 2*8/(9 +10)= 0.84 Photography (9) dan Phonetic (7) Ph ho = 2 2*2/(9 +7) = 0.25 Photographic (10) dan Phonetic (7) Ph ho ic = 3 2*3/(1 0+7)= 0.35 Nusantara of Engineering/Vol. 3/ No. 2/ISSN: 2355-6684 12 dokumen tersebut mendekati plagiarisme.
5. 100% : Hasil uji 100% menandakan bahwa dokumen tersebut adalah plagiat karena dari awal sampai akhir mempunyai isi yang sama persis.

PENUTUP


Dibalik kemudahan yang didapat seperti kemudahan dalam menyalin dokumen atau data digital, terdapat kecenderungan tindakan negatif yang didominasi kepentingan pribadi salah satunya yaitu plagiarisme. Plagiarisme adalah kegiatan meniru suatu hasil karya orang lain untuk kemudian diakui sebagai karya pribadi. Fenomena plagiarisme juga rawan terjadi pada lingkungan akademis. Misalnya mahasiswa yang kebingungan akan mengerjakan tugas akhir atau skripsi dan belum memiliki tema atau judul skripsi, maka jalan pintas yang bisa ditempuh adalah dengan melakukan plagiarisme.Dengan menggunakan sistem ini kita dapat mendeteksi dan mencegah plagiarisme.


DAFTAR PUSTAKA

1. Aplikasi Pendeteksi Plagiarisme Dalam Karya Tulis Ilmiah Dengan Algoritma Rabin Karph : https://repository.usd.ac.id/11940/2/125314083_full.pdf 
2. Pencegah Plagiasi Dengan Deteksi Kemiripan Judul Skripsi: 
http://ojs.unpkediri.ac.id/index.php/ti/article/download/12336/967/
3. Sinonim Dan Word Sense Disambiguation Untuk Melengkapi Detektor Plagiat Dokumen Tugas Akhir : https://docplayer.info/34374357-Sinonim-dan-word-sense-disambiguation-untuk-melengkapi-detektor-plagiat-dokumen-tugas-akhir-devi-dwi-purwanto.html




Komentar

Postingan populer dari blog ini

Apa itu LSP? Kenapa LSP dibentuk oleh pemerintah?

Penerapan Enterprise Resource Planning (ERP) untuk Sistem Informasi