Similarity) untuk mendeteksi plagiat dokumen di Perpustakaan Daerah Kota Tangerang
Riski Febriandi 1110094000032
Universitas Islam Negeri Syarif Hidayatullah Jakarta
Bab I Pendahuluan 1.1. Latar Belakang Dengan semakin berkembangnya teknologi sehingga membuat karya tulis semakin mudah. Semakin mudahnya dalam mengakses informasi dari berbagai lata seperti komputer, handphone, dan yang lainnya, maka tak jarang ditemukan juga kemiripan dan kesamaan dalam berbagai karya tulis.(Anna K, UGM, 2008) Didunia pendidikan khususnya, penjiplakan sangat marak terjadi. Misalnya dalam mengerjakan tugas, para siswa lebih memilih mencari lewat Google karena hanya dengan mengetikkan kata kunci yang sesuai maka mereka sudah menemukan beberapa hal yang mirip dengan yang mereka cari sehingga mereka tinggal memilih dan menyalinnya untuk tugas mereka. (Anna K, UGM, 2008) Di internet, sudah banyak aplikasi-aplikasi yang beredar untuk mendeteksi atau menganalisis seberapa mirip atau persis dua dokumen yang diuji berdasarkan dua metode, yaitu metode uji kemiripan teks dan uji kemiripan frase. Untuk uji kemiripan teks, digunakan algoritma perbandingan huruf yang sudah baku, yaitu difference algorithm. Sedangkan untuk metode uji kemiripan frase. Salah satu aplikasi yang dipakai yaitu TESSY ( Test of Text Simillarity). (Nahtasya Nur, UIN, 2010) TESSY (Test of Text Simillarity) menggunakan perbandingan kata dengan cara menghilangkan semua selain kata dan tanda baca dan menghitung jumlah kemunculan setiap frase dalam satu dokumen dan membandingkan dengan hasil dari dokumen lain. Untuk pengujian dokumen, masih harus dicek lagi oleh ahlinya untuk dokumen yang dinyatakan suspect plagiat. (Nahtasya Nur, UIN, 2010)
1.2. Rumusan Masalah Berdasarkan permasalahan yang ada, maka penulis merumuskan suatu masalah, yaitu : 1. Bagaimana membuat aplikasi TESSY (Test of Text Simillarity) yang efektif? 2. Bagaimana membuat algoritma irisan sehingga dari berbagai macam algoritma ditemukan satu algoritma yang efektif dalam mendeteksi plagiat karya tulis? 1.3. Batasan Masalah Dalam hal ini, penulis membatasi masalah hanya dalam dokumen yang berukuran kurang dari 1000 kata dan algoritma yang digunakan adalah algoritma irisan kata dengan pemrogramaan JAVA dan databasenya MySQL. Lalu untuk tempat penelitiannya penulis hanya meneliti didaerah Tangerang Kota.
1.4. Tujuan Penulisan Berdasarkan uraian latar belakang, maka tujuan penelitian ini adalah : 1. Mengatasi permasalah penurunan kualitas karya ilmiah. 2. Mengimplementasikan TESSY (Test of Text Simillarity) untuk mendeteksi plagiat karya tulis dan memberikan laporan kepada pengambil keputusan secara akurat.
Bab II Landasan Teori 2.1. Konsep Dasar Plagiat Akar kata plagiat berasal dari bahasa Latin, plagiarius yang berarti penculik dan plagiare yang berarti mencuri.(Gaduh,2009). Menurut Kamus Besar Bahasa Indonesia, ialah pengambilan karangan (pendapat dan sebagainya) orang lain dan menjadikannya seolah-olah karangan (pendapat dan sebagainya) sendiri, misal menerbitkan karya tulis orang lain atas namanya sendiri. Pusat Bahasa Departemen Pendidikan (2008), Plagiarisme, menurut Kamus Besar Bahasa Indonesia, ialah penjiplakan yang melanggar hak cipta, yaitu hak seorang atas hasil penemuannya yang dilindungi oleh undang-undang. Orang yang melakukan plagiat disebut plagiator atau penjiplak (Nias, 2008). 2.1.1. Tipe-tipe Plagiarisme Menurut Kurniawati et all (2008), ada beberapa tipe plagiarisme, yaitu : 1. Word for-word plagiarism Menyalin setiap kata secara langsung tanpa diubah sedikitpun. 2. Plagiarism of autorship Mengakui hasil karya orang lain sebagai hasil karya sendiri dengan cara mencantumkan nama sendiri menggantikan nama pengarang yang sebenarnya. 3. Plagiarism of source Jika seorang penulis menggunakan kutipan dari penulis lain tanpa mencantumkan sumbernya. 4. Plagiarism of ideas Mengakui hasil pemikiran atau ide orang lain Sedangkan menurut Goenawan et all (2008), tipe-tipe plagiarisme sebagai berikut : 1. Word-for-word plagiarism Menyalin setiap kata secara langsung tanpa diubah sedikitpun. 2. Plagiarism of the form of source Menyalin dan atau menulis ulang kode-kode program tanpa mengubah struktur dan jalannya program. 3. Plagiarism of authorship Mengakui hasil karya orang lain sebagai hasil karya sendiri dengan cara mencantumkan nama sendiri menggantikan nama pengarang sebelumnya.
2.1.2. Metode Pendeteksi Plagiarisme Menurut Kurniawati et all (2008), Metode Pendeteksi Plagiarisme dibagi menjadi bagian yaitu metode perbandingan teks lengkap, metode dokumen fingerprinting dan metode kesamaan kata kunci. Berikut ini penjelasan dari masing-masing metode dan algoritma pendeteksi plagiarisme. Ketiga metode tersebut adalah : 1. Perbandingan Teks Lengkap Metode ini diterapkan dengan membandingkan semua isi dokumen. Dapat diterapkan untuk dokumen yang besar. Pendekatan ini membutuhkan waktu yang lama tetapi cukup efektif, karena kumpulan dokumen yang diperbandingkan adalah dokumen yang disimpan dalam penyimpanan lokal. Metode perbandingan ini tidak dapat diterapkan untuk kumpulan dokumen yang tidak terdapat pada dokumen lokal. Algoritma yang digunakan dalam metode ini adalah algoritma Brute Force, algoritma edit distance, algoritma bayer moore dan algoritma lavenshtein distance. 2. Dokumen Fingerprinting Dokumen fingerprinting merupakan metode yang digunakan untuk mendeteksi keakuratan salinan antar dokumen, baik semua teks yang terdapat dalam dokumen atau hanya sebagian teks saja. Prinsip kerja dari metode dokumen fingerprinting ini adalah dengan menggunakan teknik hashing. Teknik hashing adalah fungsi yang mengkonversi setiap string atau kata menjadi bilangan. 3. Kesamaan Kata Kunci Prinsip dari metode ini adalah mengekstrak kata kunci dari dokumen dan kemudian dibandingkan dengan kata kunci yang didapatkan dari dokumen lain. Pendekatan yang digunakan pada metode ini adalah teknik dot.
2.2. Konsep Dasar TESSY (Test of Text Simillarity) TESSY(Test of Text Simillarity) adalah sebuah aplikasi yang dirancang oleh Dr Didi Achjari M.Kom (Dosen UGM Fakultas Ekonomika dan Bisnis) pada tahun 2006, yang dapat didefinisikan sebagai suatu aplikasi yang dapat menguji teks untuk mendeteksi karya ilmiah dengan memberi laporan plagiat atau tidaknya karya ilmiah tersebut.(Nahtasya Nur 2010). Adapun metode pengujian yang digunakan oleh TESSY (Test of Text Simillarity) adalah sebagai berikut : 1. Uji Kemiripan Teks Uji ini dilakukan dengan cara menghitung prosentase kemiripan dokumen yang sudah diuji dengan dokumen yang sudah ada. 2. Uji Kemiripan Frase Uji ini dilakukan dengan cara aplikasi TESSY (Test of Text Simillarity) akan mencari dan menghitung kemunculan frase dan kombinasinya dalam dokumen. Dalam metode ini, karakter-karakter selain teks dan separator dihilangkan dari dokumen. Lalu aplikasi akan mencari frase dalam dokumen dan menghitung jumlah kemunculannya (Arjanti 2008). Asumsi level kemiripan teks atau frase yang menjurus ke plagiat juga bisa diatur dan disesuaikan dengan standar kemiripan yang diadopsi setiap lembaga. Satu lembaga dengan lembaga lainnya bisa saja memiliki standar kemiripan yang berbeda untuk masuk ke katogeri plagiat (Tempo 2008). 2.3. Algoritma Differential Menurut Arjanti (2008), algoritma differensial adalah algoritma perbandingan huruf yang dipakai pada aplikasi TESSY (Test of Text Simillarity) dan digunakan oleh Dr Didi Achjari M.Kom (Dosen UGM Fakultas Ekonomika dan Bisnis) untuk menguji kemiripan teks dengan menghitung kemiripan teks dengan menghitung prosentase kemiripan dokumen yang diuji dengan dokumen yang sudah ada, nilai prosentase tinggi menunjukkan tingkat kemiripan yang sangat tinggi. 2.4. Pendekatan Manber Pendekatan manber merupakan salah satu pendekatan pada metode dokumen fingerprinting. Pendekatan ini digunakan untuk memilih hasil dari proses hashing dengan cara memilih semua hasil hashing yang memenuhi kriteria 0 mod p (Kurniawati et all 2008). 2.5. Pendekatan Algoritma Winnowing Menurut Kurniawati et all (2008), algoritma winnowing merupakan algoritma dokumen fingerprinting yang digunakan untuk mendeteksi salinan dokumen dengan teknik hashing. Untuk mengkonversi setiap string menjadi bilangan yang terdapat pada dokumen dengan menggunakan k-gram, panjang substring k dimana k merupakan nilai yang dipilih pengguna. Dokumen akan dibagi kedalam k-gram yang mungkin dan kemudian k-gram tersebut akan di- hash. Untuk memilih fingerprinting dari hasil hashing, dilakukan pembagian dengan window w, dan dipilih nilai yang paling kecil. Definisi Winnowing : Dari setiap window yang dipilih nilai hash yang paling minimum atau kecil. Jika terdapat niliai minimum lebih dari satu nilai, maka pilih dari window sebelah kanan. Kemudian simpan semua hasil hash yang telah dipilih yang merupakan fingerprint dokumen. Diberikan kumpulan dokumen, ingin menemukan substring yang sama diantara dokumen-dokumen itu maka properties yang dilakukan adalah : 1. Jika terdapat string yang sama yang panjangnya sama dengan panjang t dimana t merupakan jaminan mabang nilai yang ditentukan, maka pencocokan terdeteksi. 2. Tidak dapat mendeteksi beberapa pencocokan jika lebih pendek dari gangguan nilai ambang , k. Nilai konstan t dan k t dipilih oleh pengguna. Menghindari pencocokan string yang sama dibawah nilai gangguan nilai ambang dengan mempertimbangkan hash k-gram. 2.6. Pendekatan Algoritma Jaro Winkler Jaro-Winkler distance adalah varian dari Jaro-Winkler metric yaitu algoritma yang digunakan untuk mengukur kesamaan antara dua string. Semakin tinggi jaro-winkler distance untuk dua string, semakin terlihat kemiripan antara dua string tersebut. Algoritma jaro-winkler distance memiliki kompleksitas waktu quadratic runtime complexity yang sangat efektif pada string pendek dan dapat bekerja lebih cepat dengan algoritma edit distance. Dasar dari algoritma ini memiliki tiga bagian yaitu : 1. Menghitung panjang string 2. Menentukan jumlah karakter yang sama dalam dua string, dan 3. Menemukan jumlah transposisi
2.7. Algoritma Smith Waterman Algoritma Smith-Waterman merupakan algoritma klasik yang telah dikenal luas dalam bidang bioinformatika yang dipakai sebagai sebagai metode yang dapat mengidentifikasi penyejajaran sekuens yaitu proses penyusunan dua rangkaian/susunan atau rentetan nukleotida atau susunan protein sehingga kemiripan antara dua rangkaian tersebut akan terlihat. Berdasarkan fungsi proses penyejajaran sekuens tersebut, algoritma ini dapat diterapkan dalam pemprograman komputer untuk pendeteksian kesamaan atau pengukuran tingkat kemiripan sebuah dokumen teks dengan dokumen teks lain dengan cara melihat kesamaan isi (local similarities) dari kedua dokumen teks tersebut [2]. Dalam gambar 1 diandaikan bahwa lambang X dan Y merupakan dua urutan (sekuens) string yang masing-masing berasal dari dokumen yang berbeda. Panjang X dan Y masing-masing dinyatakan sebagai m dan n. Dari dua string ini dapat dihitung nilai kecocokan yang diperoleh dari pembandingan substring X dari string X dengan substring Y dari string Y. Proses pembandingan ini akan menghasilkan penyejajaran yang identik/mirip (hit) dengan atau tanpa perubahan urutan string seperti penghilangan (deletion), penyisipan (insertion), dan penggantian (replacement). Anggap h adalah kontribusi positif yang merepresentasikan hit atau cocok, d untuk kontribusi negatif yang merepresentasikan penyisipan atau penghilangan (atau bisa disebut indel), sedangkan r adalah kontribusi negatif yang dibuat dengan menggantikan satu simbol dengan simbol yang lain. Model yang lebih umum pada khususnya digunakan di dalam bidang biologi komputasional. Dengan menggunakan nilai positif untuk identik dan nilai negatif untuk penghilangan dan penggantian, maka pembentukan nilai dari tiap-tiap simbol dari dua buah string tersebut dapat direpresentasikan di dalambentuk matriks. Namun demikian, nilai hubungan antarah, d, dan r belum diketahui secara jelas. Pada intinya, dalam pengidentifikasian kesamaan string digunakanprinsip penambahan dan pengurangan. Huruf h merepresentasikan penambahan, sedangkan d dan r merepresentasikan pengurangan. Dapat diasumsikan bahwa penambahan dan pengurangan memiliki bobot yang sama. Dengan demikian dapat dianggap nilai dari h, d, dan r adalah 1. Sebagai contoh, bila substring X = abcbadbca dan substring Y = abbdbda, dengan penyejajaran yang optimal didapatkan 6 hit, 2 indel, dan 1 replacement, seperti yang ditunjukkan pada gambar di bawah ini, dan didapatkan nilai untuk dua string yang diberikan ini, yaitu 6h - 2d - r, atau 6 - 2 - 1 = 3 untuk kasus h = d = r = 1 dengan keterangan tanda menunjukan kecocokan atau match, sedangkan tanda - menunjukan adanya kesenjangan atau gap di antara dua sekuens string. 2.8. Algoritma Levenshtein Distance Dalam teknologi informasi dan komunikasi, Levenshtein Distance merupakan algoritma yang sering digunakan untuk mengukur keterbedaan jarak antara dua sekuensi. Levenshtein distance antara dua string ditentukan antara dua jumlah minimum perubahan/pengeditan yang diperlukan untuk melakukan suatu tranfromasi dari satu bentuk string ke bentuk string yang lain. Contoh nya kata hallo dengan hullo mempunyai LD=1. Langkah-langkah yang digunakan untuk algoritma Levenshtein Distance menurut Andika,2011 adalah sebagai berikut: a. Insertion Insertion atau penyisipan adalah menyisipkan satu buah karakter kedalam string tertentu. Contohnya menyisipkan karakter a di string bca setelah karakter b maka string bca berubah menjadi baca. b. Deletion Deletion atau penghapusan adalah penghapusan sebuah karakter kedalam string tertentu. Contoh menghapus karakter m pada string ayam maka string ayam berubah menjadi aya. c. Subtitution Subtitution atau menukarkan adalah penukaran sebuah karakter didalam stirng untuk diganti dengan karakter lain.
2.9. Algoritma Edit Distance Algoritma edit distance adalah algoritma perbandingan teks lengkap yang digunakan untuk mendeteksi kemiripan antara dua teks dengan cara memasukkan isi tiap file sumber kedalam string. Algoritma ini pun dapat digunakan untuk dua buah teks yang panjangnya tidak sama. Kompleksitas waktu algoritma edit diistance adalah O(|String1|*|String2|) atau kuadratik (O(n2)) jika panjang kedua string tidak sama (Goenawan et all 2008).
2.10. Algoritma Irisan Menurut Nahtasya Nur (2008), algoritma irisan mempunyai beberapa proses untuk mendeteksi kesamaan, yaitu proses algoritma import dan algoritma verify. 1 Proses algoritma import : 1 Tentukan dokumen pembanding 2 Himpun semua paragraf 3 Himpun semua kata dan lakukan stopword, yaitu pembersihan tanda baca, buang kata yang berulang dan jadikan lowercase, dan kata berupa bilangan tidak disimpan. 4 Simpan semua paragraf 5 Simpan himpunan kata 2 Proses algoritma verify: 1 Tentukan file dokumen yang akan dibandingkan 2 Himpun semua paragraf 3 Himpun semua katan dan lakukan stopword, yaitu pembersihan tanda baca, buang kata yang berulang dan jadikan lowercase, dan kata berupa bilangan tidak disimpan. 4 Simpan himpunan kata 5 Ambil himpunan kata yang telah di-import 6 Lakukan irisan pada himpunan kata 7 Hitung prosentase : [jumlah kata yang beririsan]/[jumlah kata himpunan file]*100% 2.11. Rumusan Pemecahan Masalah 2.10.1. Diagram Alur (Flowchart) Diagram alur memberikan bentuk gambar dalam merepresentasikan suatu aliran kontrol logika dengan menggunakan notasi-notasi simbol grafis (Pressman 2002). 2.10.2. Pseudocode Kode palsu atau dalam bahasa Inggris lebih disebut pseudo-code merupakan deskripsi tingkat tinggi informal dan ringkas atas algoritma pemrograman komputer yang menggunakan konvensi struktural atas suatu bahasa pemrograman, dan ditujukan untuk dibaca manusia dan bukan untuk mesin. Kode palsu biasanya tidak menggunakan elemen detil yang tidak diperlukan untuk kebutuhan pemahaman manusia atas suatu algoritma, seperti deklarasi variabel, kode ataupun subrutin untuk sistem yang bersifat spesifik. Bahasa pemrograman yang digunakan lebih diperbanyak dengan deskripsi dalam bahasa natural atau sesuatu hal yang bersifat detil atau dengan menggunakan notasi matematis. Tujuan dari penggunaan kode palsu adalah untuk mempermudah manusia dalam pemahaman dibandingkan dengan menggunakan bahasa pemrograman yang umum digunakan, terlebih aspeknya yang ringkas serta tidak bergantung pada suatu sistem tertentu merupakan prinsip utama dalam suatu algoritma. Kode palsu biasanya digunakan untuk buku-buku maupun publikasi karya ilmiah yang mendokumnetasikan suatu algoritma dan juga dalam perencanaan pengembangan program komputer, untuk membuat sketsa atas struktur data sebuah program yang sesungguhnya ditulis. 2.10.3. Bahasa Pemrograman Bahasa pemrograman adalah bahasa yang digunakan untuk setiap aplikasi pembuat program untuk membaca baris per baris dari tulisan yang kita buat. Setiap bahasa memiliki struktur dan keunikan masing-masing dan sangat berbeda antara satu dan yang lainnya. Sehingga bahasa dipelajari setelah mereka mempelajari algoritma, pseudocode dan flowchart.
2.12. Alat Pengembangan Aplikasi TESSY (Test of Text Simillarity) 2.11.1 Java Java pertama kali dibuat oleh James Gosling dan rekan-rekannya di SUN Microsystem. Bahasa pemrograman tersebut dahulu diberi nama OAK yang merupakan nama pohon yang terletak diseberang kantor Gosling. Fitur utama dari Java adalah portabilitasnya untuk dapat dijalankan diberbagai platform. Fitur portabilitas dari pemrograman Java seringkali diucapkan dengan tag seperti berikut : Write Once Run Anywhere. Bahasa pemrograman Java dtujukan untuk membuat sebuah bahasa yang memiliki fitur yaitu : a) Harus menggunakan metodologi bahasa pemrograman berorientasi objek. b) Program yang dibuat dengan Java harus dapat dijalankan diberbagai platform komputer. c) Harus memiliki dukungan dalam bekerja dalam jaringan. d) Didesain agar mampu mengeksekusi kode secara remote dengan aman. e) Harus mudah dipakai dan meminjam berbagai fitur yang baik dari bahasa pemrograman berorientasi objek yang sudah ada. 2.11.2 MySQL MySQL merupakan software sistem manajemen database (Database Manajemen System DBMS) yang sangat populer dikalangan pemrogram web, terutama dikalangan lingkungan Linux dengan menggunakan script PHP dan Perl. Software database ini kini telah tersedia juga pada platforms sistem operasi Windows (98 keatas). MySQL merupakan database yang paling populer digunakan untuk membangun aplikasi web yang menggunakan database sebagai sumber dan pengelola datanya. Kepopuleran MySQL dimungkinkan karena kemudahannya untuk digunakan, cepat secara kinerja query dan mencukupi untuk kebutuhan database perusahaan skala menengah-kecil. MySQL merupakan database yang digunakan oleh situs-situs terkemuka diinternet untuk menyimpan datanya. Software database MySQL kini dilepas sebagai software manajemen database yang open source. Sebelumnya merupakan database yang shareware. Shareware adalah suatu software yang dapat didistribusikan secara bebas untuk keperluan penggunaan secara pribadi tetapi jika digunakan secara komersil maka pemakai harus mempunyai lisensi dari pembuatnya. Software opensource menjadikan software dapat didistribusikan secara bebas dan dapat dipergunakan untuk pribadi maupun komersil, termasuk didalamnya source code dari software tersebut (Betha 2003).
BAB III METODOLOGI PENELITIAN Metodologi penelitian pada penelitian ini , penulis menggunakan tahapan pengumpulan data dengan studi pustaka, tahapan untuk pengembangan sistem, dan penerapan aplikasi. 3.1 Tahapan Pengumpulan Data Dalam rangka penelitian ini, diperlukan data-data informasi yang relatif lengkap sebagai bahan yang dapat mendukung kebenaran materi uraian pembahasan. 1 Studi Pustaka Yaitu dengan cara membaca buku-buku serta surfing melalui internet untuk mendapatkan informasi yang berhubungan dengan aplikasi ini yaitu aplikasi TESSY (Test of Text Simillarity). 3.2 Tahapan Pengembangan Sistem Pada tahap pengembangan sistem penulis memakai metode Rapid Aplication Development (RAD). Menurut Kendall (2003) Rapid Application Development adalah salah satu metode pengembangan suatu sistem informasi dengan waktu yang relatif singkat. Pada saat RAD diimplementasikan, maka para pemakai bisa menjadi bagian dari keseluruhan proses pengembangan sistem dengan bertindak sebagai pengambil keputusan pada setiap tahap pengembangan. Rapid Application Development (RAD) bisa menghasilkan suatu sistem dengan cepat karena sistem yang dikembangkan dapat memenuhi keingininan dari para pemakai sehingga dapat megurangi waktu untuk pengembangan ulang setelah tahap implementasi. Pendekatan Rapid Application Development (RAD) melingkupi fase-fase: rancangan kebutuhan, proses desain, dan implementasi (Jurnal Informatika 2002). Alasan penulis menggunakan metode RAD karena aplikasi TESSY yang penulis kembangkan ini membutuhkan waktu yang singkat dan alasan ini dilihat dari sisi metode RAD sendiri. Yaitu salah satu metode pengembangan suatu sistem informasi dengan waktu yang relatif singkat.(Kendall 2003). 3.2.1 Rencana Kebutuhan Pada tahap ini rencana kebutuhan melakukan identifikasi tujuan dari aplikasi dan identifikasi kebutuhan informasi untuk mencapai tujuan, adapun penjelasan identifikasi tersebut sebagai berikut : 1 Identifikasi Tujuan Identifikasi tujuan adalah mengidentifikasi rencana aplikasi yang dapat memberikan keluaran dengan proses-proses yang telah ditentukan. 2 Identifikasi Kebutuhan Identifikasi kebutuhan adalah mengidentifikasi rencana kebutuhan informasi untuk mencapai tujuan sehingga kebutuhan informasi untuk mengembangkan sebuah apliasi dapat dipenuhi. 3.2.2 Proses Desain Pada tahap ini, dijelaskan algoritma irisan seperti apa dan digambarkan sejelas-jelasnya. 3.2.3 Implementasi Pada tahap ini, model proses diimplementasikan kedalam bahasa pemrograman generasi ke-empat. Yang digunakan dalam penelitian ini adalah Java untuk bahasanya dan MySQL untuk databasenya. 3.3 Penerapan Aplikasi Dalam Penerapannya, kita lihat contoh kasus berikut : 1 File pembanding memiliki jumlah kata sebanyak 200 kata. 2 File uji memiliki jumlah kata sebanyak 100 kata 3 Lakukan stopword (pembersihan tanda baca, buang kata penghubung dan kata berulang dan angka) pada dokumen 1 dan 2 sehingga didapat hasil file pembanding tinggal 150 kata dan file uji tinggal 50 kata. 4 Himpun file pembanding dan file uji, lakukan irisan pada file pembanding dan file uji. 5 Didapatkan jumlah irisan misalnya 25 maka prosentase kemiripan antara dokumen uji dan pembanding adalah : Prosentase = [jumlah kata yang beririsan]/[jumlah kata file uji]*100% = 50% Jadi, jumlah prosentase setelah melakukan proses irisan didapat 50%, maka nilai tersebut menunjukkan nilai kemiripan pada dokumen yang dibandingkan. Asumsi level kemiripan teks atau frase yang menjurus keplagiat juga bisa diatur dan disesuaikan dengan standar kemiripan yang diadopsi setiap lembaga. (Tempo 2008).