Di dalam sistem temu kembali terdapat proses text mining yang memiliki
definisi menambang data yang berupa teks dimana sumber data biasanya didapat
dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat mewakili isi
dari dokumen sehingga dapat dilakukan analisa keterhubungan antar dokumen.
Tahapan yang dilakukan secara umum dalam text mining adalah : tokenizing, filtering, stemming. Pada proses tersebut masing-masing melakukan fungsinya
masing-masing. Proses tokenizing adalah tahap pemotongan string input
berdasarkan tiap kata yang menyusunnya. Proses ini menghasilkan kata –kata yang
berdiri sendiri.
Apakah proses tokenizing penting untuk dilakukan ?
Sangat penting, karena didalam proses ini merupakan tahap pemotongan
string input berdasarkan tiap kata yang menyusunnya. Proses ini menghasilkan
kata –kata yang berdiri sendiri. Dan kemudian dilakukan proses filtering. Tahap
filtering mengambil kata-kata yang penting dari hasil proses token. Dan setelah
itu baru dilakukan proses stemming , tagging dan analyzing. Sehingga antara
tahap – tahap ini saling terkait dan berhubungan.
Stopword
Modul Pembuangan stopword (filtering). Tahap filtering
adalah proses pembuangan term yang tidak memiliki arti atau tidak relevan.
Term yang diperoleh pada tahap tokenisasi dicek dalam suatu daftar
stopword, jika term masuk dalam daftar stopword maka term tidak akan
diproses lebih lanjut, tapi jika term tidak termasuk dalam daftar stopword
maka term akan diproses lebih lanjut. Contoh stopwords adalah “yang”,
“dan”, “di”, “dari” dan seterusnya.
Stemmming
Stemmming merupakan salah satu proses dari pembuatan sistem temu
kembali, dimana proses stemming akan dilakukan setelah proses filtering. Proses
stemming ini membuat term yang ada pada tabel filtering menjadi kata dasar,
dengan menghilankan semua imbuhan yang ada pada kata tersebut (imbuhan meng-, me-,
kan-, di- , i, pe, peng-, a-, dll.)
Pentingnya stemming dalam proses pembuatan sistem temu kembali yakni
dimana saat menghilangkan imbuhan pada sebuah kata menjadi hal yang perlu
diperhatikan. Karena dalam proses stemming yang penting yakni terlebih untuk
menghilangkan imbuhan pada awalan setelah itu akhiran. Apabila yang dilakukan
adalah sebaliknya maka tidak akan ditemukan kata dasar yang tepat dan sesuai
dengan kamus bahasa. Dimana dari hasil proses tersebut akan didapatkan sebuah
informasi mengenai banyaknya term yang muncul dalam sebuah dokumen setelah
dilakukan perhitungan term frequency.
Manfaat dari proses stemming yakni :
- Hasil pencarian kemunculan term dapat
dijadikan sebagai perhitungan dokumen.
- Dapat meningkatkan jumlah dokumen yang terambil
sebelum dilakukan pengindeksan