Senin, 27 April 2009

Information retrieval

Jumlah informasi yang tersedia di internet saat ini semakin banyak dan beragam. Pengguna membutuhkan mekanisme pencarian yang efektif dalam rangka mendapatkan informasi yang berguna dari sekian banyak informasi yang tersedia. Seringkali pengguna internet lebih menyukai himpunan kecil dokumen yang relevan dengan kebutuhan dibandingkan dengan himpunan dokumen yang besar namun banyak mengandung informasi yang tidak relevan. Dengan kata lain, pengguna internet membutuhkan suatu Sistem Temu Balik Informasi (Information Retrieval/IR) yang efektif dan efisien dalam pencarian dokumen yang dikehendaki .
Information Retrival dibangun dengan tiga subsistem salah satunya yaitu indexing dan searching subsystem. Ini merupakan tonggak atau awal dari sistem IR itu sendiri.
I. Indexing
Proses indexing pada informasi retrival digambarkan sebagai berikut:

gambar 1 Alur Indexing Subsystem

Ada beberapa tahapan untuk melakukan indexing sampai tersimpan didatabase antara lain menyimpan ID dokumen dan menyimpan term index melalui memecah isi dokumen kedalam token (break into token), melakukan stoplist, steaming, term indexing.
1. Break Into Token
Merupakan proses memecah (parsing) dokumen menjadi token-token yaitu dengan memotong menjadi term (kata, frase).
2. StopList
Merupakan proses menghilangkan kata-kata umum. Misalkan dalam, dan, karena, mana, untuk dan lainnya. Dalam pembahasan ini kita batasi hanya dilakukan pada bahasa indonesia saja. Pada proses selanjutnya juga akan dibatasi hanya untuk bahasa indonesia.
3. Steaming
Merupakan proses pengelompokan kata secara morfologis sesuai dengan kelompoknya . Ada pengertian lain yaitu proses ini merubah kata-kata yang berimbuhan menjadi kata dasar dengan menghilangkan imbuhan, sisipan maupun akhiran. Sebagai contoh kata ”memakan”, ”dimakan”, ”termakan”, ”makan-makan” akan dikelompokkan kedalam kata ”makan”.
Kata ”cinta” memiliki turunan kata ”pecinta”, ”mencintai”, ”dicintai” dan lain sebagainya, sehingga ketika orang memasukkan kata-kata turunan tersebut akan keluar dokumen yang relevan.
4. Term Weighting
Term weighting adalah proses pembobotan term yang ada di dokumen (seberapa sering kemunculan term pada dokumen)

II.Searching
Searching merupakan suatu proses mencari atau melakukan query ke dalam database berdasarkan key word yang diinputkan oleh user.

gambar 2 Alur Proses searching Subsystem

Tahapan dalam melakukan serching pada information retrieval yaitu :
1. Parse query
Tahap awal dalam melakukan searching adalah memarsing query, key word yang diinputkan user dijadikan sebagi query untuk melakukan pencarian ke dalam database.
2. Stop list
Hasil dari proses parse query adalah query token (berisi query yang sudah dipotong berdasarkan token), kemudian dilakukan proses stoplist yaitu menghilangkan kata-kata yang umum.
3. Stemming
Setelah query tersebut melewati proses stoplist, kemudian query tersebut melalui proses stemming yaitu suatu proses mengembalikan menjadi kata dasar dengan cara membuang awalan, akhiran atau sisipan. Hal ini dilakukan karena yang disipan di dalam index database adalah kata dasar saja.
4. Boolean operation
Setelah mendapatkan dokumen yang relevan dengan key word yang dicari maka proses berikutnya mengecek operator boolean.
5. Ranking
Tahap yang terakhir adalah melakukan perangkingan, dari dokumen – dokumen yang di dapatkan. Perangkingan disiususn bedasarkan tingkat kemiripan dokumen dengan query, dokumen yang paling besar tingkat kemiripanya dengan query menjadi dokumen dengan ranking teratas.

Tidak ada komentar: