Sebuah diskusi rinci tentang semua ini metode pengambilan jelas keluar dari ruang lingkup ini
buku. Berikut kita secara singkat membahas pendekatan-model ruang vektor yang paling populer.
Untuk model lainnya, pembaca bisa merujuk ke informasi buku teks pencarian, sebagai referensi
dalam catatan bibliografi. Meskipun kami fokus pada model ruang vektor, beberapa langkah
yang dibahas tidak spesifik untuk pendekatan khusus ini.
Ide dasar dari model ruang vektor adalah sebagai berikut: Kami mewakili dokumen
dan query baik sebagai vektor dalam ruang dimensi tinggi sesuai dengan semua kata kunci dan menggunakan ukuran kesamaan yang tepat untuk menghitung kesamaan antara
vektor query dan vektor dokumen. Nilai-nilai kesamaan kemudian dapat digunakan untuk
peringkat dokumen. "Bagaimana kita tokenize teks?" Langkah pertama dalam sebagian besar sistem pengambilan adalah untuk mengidentifikasi kata kunci untuk mewakili dokumen, langkah preprocessing sering disebut tokenization. Untuk menghindari pengindeksan kata tidak berguna, sistem pencarian teks sering mengaitkan daftar berhenti dengan satu set dokumen. Daftar berhenti adalah satu set kata-kata yang dianggap "tidak relevan." Sebagai contoh, sebuah, yang, dari, untuk, dengan, dan sebagainya adalah kata-kata berhenti, meskipun mereka mungkin sering muncul. Berhenti daftar dapat bervariasi per set dokumen. Misalnya, sistem database bisa menjadi penting kata kunci dalam newspaper.However, itu dapat dianggap sebagai kata berhenti dalam satu set penelitian makalah yang disajikan dalam konferensi sistem database. Sekelompok kata yang berbeda dapat berbagi kata dasar yang sama. Sebuah sistem pencarian teks perlu mengidentifikasi kelompok kata di mana kata-kata dalam suatu kelompok adalah varian sintaksis kecil dari satu sama lain dan mengumpulkan hanya umum stem kata per kelompok. Sebagai contoh, kelompok kata narkoba, dibius, dan obat-obatan, berbagi kata umum batang, obat, dan dapat dilihat sebagai kejadian yang berbeda dari kata yang sama.
Sedang diterjemahkan, harap tunggu..
