Diberdayakan oleh Blogger.
RSS

Sistem Temu Kembali Informasi

Makalah tentang Tokenisasi, 
Stopword Removal, dan Stemming




Oleh :
Hafiyan Nafan Kusuma Satria (16.01.63.0004)
Septina Budi Kurniawati (15.01.63.0020)

Dosen Pengampu : 
Dr. Drs. Eri Zuliarso,M.Kom


FAKULTAS TEKNOLOGI INFORMASI
UNIVERSITAS STIKUBANK
SEMARANG
2017


Information Retrieval

Pengertian
Information Retrieval atau Penelususran Kembali Sistem Informasi adalah bagian dari ilmu komputer yang berhubungan dengan pengambilan informasi dari dokumen-dokumen yang didasarkan pada isi dan konteks dari dokumen-dokumen itu sendiri.
Proses dalam sistem temu kembali dapat digambarkan sebagai sebuah proses untuk mendapatkan dokumen yang relevan dari koleksi dokumen melalui pencarian query yang diimputkan user.
Salton menjelaskan bahwa sistem temu kembali informasi bertujuan untuk menjembatani kebutuhan informasi user dengan sumber informasi yang tersedia dalam situasi seperti dikemukakan sebagai berikut:[Salton:1989].
  1. Mempresentasikan sekumpulan ide dalam sebuah dokumen menggunakan sekumpulan konsep.
  2. Terdapat beberapa pengguna yang memerlukan ide, tapi tidak dapat mengidentifikasikan dan menemukannya dengan baik.
  3. Sistem temu kembali informasi bertujuan untuk mempertemukan ide yang dikemukakan oleh penulis dalam dokumen dengan kebutuhan informasi pengguna yang dinyatakan dalam bentuk key word query/istilah penelusuran.

Tokenisasi

Di dalam sistem temu kembali terdapat proses text mining yang memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapat dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat mewakili isi dari dokumen sehingga dapat dilakukan analisa keterhubungan antar dokumen.
Tahapan yang dilakukan secara umum dalam text mining adalah : tokenizing, filtering, stemming. Pada proses tersebut masing-masing melakukan fungsinya masing-masing. Proses tokenizing adalah tahap pemotongan string input berdasarkan tiap kata yang menyusunnya. Proses ini menghasilkan kata –kata yang berdiri sendiri.
Apakah proses tokenizing penting untuk dilakukan ?

Sangat penting, karena didalam proses ini merupakan tahap pemotongan string input berdasarkan tiap kata yang menyusunnya. Proses ini menghasilkan kata –kata yang berdiri sendiri. Dan kemudian dilakukan proses filtering. Tahap filtering mengambil kata-kata yang penting dari hasil proses token. Dan setelah itu baru dilakukan proses stemming , tagging dan analyzing. Sehingga antara tahap – tahap ini saling terkait dan berhubungan.

Stopword
Modul Pembuangan stopword (filtering). Tahap filtering adalah proses pembuangan term yang tidak memiliki arti atau tidak relevan. Term yang diperoleh pada tahap tokenisasi dicek dalam suatu daftar stopword, jika term masuk dalam daftar stopword maka term tidak akan diproses lebih lanjut, tapi jika term tidak termasuk dalam daftar stopword maka term akan diproses lebih lanjut. Contoh stopwords adalah “yang”, “dan”, “di”, “dari” dan seterusnya.

Stemmming
Stemmming merupakan salah satu proses dari pembuatan sistem temu kembali, dimana proses stemming akan dilakukan setelah proses filtering. Proses stemming ini membuat term yang ada pada tabel filtering menjadi kata dasar, dengan menghilankan semua imbuhan yang ada pada kata tersebut (imbuhan meng-, me-, kan-, di- , i, pe, peng-, a-, dll.)

Pentingnya stemming dalam proses pembuatan sistem temu kembali yakni dimana saat menghilangkan imbuhan pada sebuah kata menjadi hal yang perlu diperhatikan. Karena dalam proses stemming yang penting yakni terlebih untuk menghilangkan imbuhan pada awalan setelah itu akhiran. Apabila yang dilakukan adalah sebaliknya maka tidak akan ditemukan kata dasar yang tepat dan sesuai dengan kamus bahasa. Dimana dari hasil proses tersebut akan didapatkan sebuah informasi mengenai banyaknya term yang muncul dalam sebuah dokumen setelah dilakukan perhitungan term frequency.

Manfaat  dari proses stemming yakni :
  • Hasil pencarian  kemunculan term dapat dijadikan sebagai perhitungan dokumen.
  • Dapat meningkatkan jumlah dokumen yang terambil sebelum dilakukan pengindeksan

  • Digg
  • Del.icio.us
  • StumbleUpon
  • Reddit
  • RSS