A detailed discussion of all of the

A detailed discussion of all of these retrieval methods is clearly out of the scope of this
book. Following we briefly discuss the most popular approach—the vector space model.
For other models, readers may refer to information retrieval textbooks, as referenced
in the bibliographic notes. Although we focus on the vector space model, some steps
discussed are not specific to this particular approach.
The basic idea of the vector space model is the following: We represent a document
and a query both as vectors in a high-dimensional space corresponding to all the keywords and use an appropriate similarity measure to compute the similarity between
the query vector and the document vector. The similarity values can then be used for
ranking documents.

“How do we tokenize text?” The first step in most retrieval systems is to identify keywords
for representing documents, a preprocessing step often called tokenization. To
avoid indexing useless words, a text retrieval system often associates a stop list with a set
of documents. A stop list is a set of words that are deemed “irrelevant.” For example, a,
the, of, for, with, and so on are stop words, even though they may appear frequently. Stop
lists may vary per document set. For example, database systems could be an important
keyword in a newspaper.However, it may be considered as a stop word in a set of research
papers presented in a database systems conference.

A group of different words may share the same word stem. A text retrieval system
needs to identify groups of words where the words in a group are small syntactic variants
of one another and collect only the common word stem per group. For example, the
group of words drug, drugged, and drugs, share a common word stem, drug, and can be
viewed as different occurrences of the same word.

“How do we tokenize text?” The first step in most retrieval systems is to identify keywords
for representing documents, a preprocessing step often called tokenization. To
avoid indexing useless words, a text retrieval system often associates a stop list with a set
of documents. A stop list is a set of words that are deemed “irrelevant.” For example, a,
the, of, for, with, and so on are stop words, even though they may appear frequently. Stop
lists may vary per document set. For example, database systems could be an important
keyword in a newspaper.However, it may be considered as a stop word in a set of research
papers presented in a database systems conference.

A group of different words may share the same word stem. A text retrieval system
needs to identify groups of words where the words in a group are small syntactic variants
of one another and collect only the common word stem per group. For example, the
group of words drug, drugged, and drugs, share a common word stem, drug, and can be
viewed as different occurrences of the same word.

0/5000

Dari: -

Ke: -

Hasil (Bahasa Indonesia) 1: [Salinan]

Disalin!

Pembahasan rinci semua cara pengambilan itu tidak jelas dalam lingkup inibuku. Setelah kita secara singkat membahas pendekatan yang paling populer-ruang vector model.Untuk model lainnya, pembaca dapat mengacu kepada buku pencarian informasi, sebagai direferensikandalam catatan bibliografi. Meskipun kita fokus pada ruang vector model, beberapa langkah-langkahdibahas tidak spesifik untuk pendekatan khusus.Ide dasar dari ruang vector model adalah sebagai berikut: kami mewakili sebuah dokumendan query kedua sebagai vektor dalam ruang dimensi tinggi sesuai dengan semua kata kunci dan menggunakan kesamaan sesuai ukuran untuk menghitung kesamaan antaravektor query dan vektor dokumen. Nilai kesamaan yang kemudian dapat digunakan untukperingkat dokumen."Bagaimana kita tokenize teks?" Langkah pertama dalam kebanyakan pengambilan sistem adalah untuk mengidentifikasi kata kunciuntuk mewakili dokumen, langkah preprocessing sering disebut tokenization. UntukHindari mengindeks kata-kata yang tidak berguna, sistem pengambilan teks sering mengaitkan daftar berhenti dengan satu setdokumen. Daftar berhenti adalah sekumpulan kata-kata yang dianggap "relevan." Sebagai contoh,,, dengan, dan sebagainya adalah kata berhenti, meskipun mereka mungkin muncul sering. StopDaftar dapat bervariasi per dokumen. Sebagai contoh, sistem database bisa menjadi pentingkata kunci di koran. Namun, hal itu dapat dianggap sebagai sebuah kata berhenti dalam satu set penelitiankertas kerja yang disampaikan dalam konferensi sistem database.Kelompok kata-kata yang berbeda dapat berbagi sama kata batang. Sistem pencarian tekskebutuhan untuk mengidentifikasi kelompok kata-kata yang mana kata-kata dalam sebuah kelompok yang kecil variasi sintaksissalah satu yang lain dan mengumpulkan hanya kata umum batang per kelompok. Sebagai contoh,kelompok kata-kata obat, pengemudi yang mabuk narkoba, dan obat-obatan, berbagi batang kata umum, obat, dan dapatdilihat sebagai kejadian-kejadian yang berbeda dari kata yang sama.

Sedang diterjemahkan, harap tunggu..

Hasil (Bahasa Indonesia) 2:[Salinan]

Disalin!

Sebuah diskusi rinci tentang semua ini metode pengambilan jelas keluar dari ruang lingkup ini
buku. Berikut kita secara singkat membahas pendekatan-model ruang vektor yang paling populer.
Untuk model lainnya, pembaca bisa merujuk ke informasi buku teks pencarian, sebagai referensi
dalam catatan bibliografi. Meskipun kami fokus pada model ruang vektor, beberapa langkah
yang dibahas tidak spesifik untuk pendekatan khusus ini.
Ide dasar dari model ruang vektor adalah sebagai berikut: Kami mewakili dokumen
dan query baik sebagai vektor dalam ruang dimensi tinggi sesuai dengan semua kata kunci dan menggunakan ukuran kesamaan yang tepat untuk menghitung kesamaan antara
vektor query dan vektor dokumen. Nilai-nilai kesamaan kemudian dapat digunakan untuk
peringkat dokumen. "Bagaimana kita tokenize teks?" Langkah pertama dalam sebagian besar sistem pengambilan adalah untuk mengidentifikasi kata kunci untuk mewakili dokumen, langkah preprocessing sering disebut tokenization. Untuk menghindari pengindeksan kata tidak berguna, sistem pencarian teks sering mengaitkan daftar berhenti dengan satu set dokumen. Daftar berhenti adalah satu set kata-kata yang dianggap "tidak relevan." Sebagai contoh, sebuah, yang, dari, untuk, dengan, dan sebagainya adalah kata-kata berhenti, meskipun mereka mungkin sering muncul. Berhenti daftar dapat bervariasi per set dokumen. Misalnya, sistem database bisa menjadi penting kata kunci dalam newspaper.However, itu dapat dianggap sebagai kata berhenti dalam satu set penelitian makalah yang disajikan dalam konferensi sistem database. Sekelompok kata yang berbeda dapat berbagi kata dasar yang sama. Sebuah sistem pencarian teks perlu mengidentifikasi kelompok kata di mana kata-kata dalam suatu kelompok adalah varian sintaksis kecil dari satu sama lain dan mengumpulkan hanya umum stem kata per kelompok. Sebagai contoh, kelompok kata narkoba, dibius, dan obat-obatan, berbagi kata umum batang, obat, dan dapat dilihat sebagai kejadian yang berbeda dari kata yang sama.

Sedang diterjemahkan, harap tunggu..

Hasil (Bahasa Indonesia) 3:[Salinan]

Disalin!

Sedang diterjemahkan, harap tunggu..

Bahasa lainnya

Dukungan alat penerjemahan: Afrikans, Albania, Amhara, Arab, Armenia, Azerbaijan, Bahasa Indonesia, Basque, Belanda, Belarussia, Bengali, Bosnia, Bulgaria, Burma, Cebuano, Ceko, Chichewa, China, Cina Tradisional, Denmark, Deteksi bahasa, Esperanto, Estonia, Farsi, Finlandia, Frisia, Gaelig, Gaelik Skotlandia, Galisia, Georgia, Gujarati, Hausa, Hawaii, Hindi, Hmong, Ibrani, Igbo, Inggris, Islan, Italia, Jawa, Jepang, Jerman, Kannada, Katala, Kazak, Khmer, Kinyarwanda, Kirghiz, Klingon, Korea, Korsika, Kreol Haiti, Kroat, Kurdi, Laos, Latin, Latvia, Lituania, Luksemburg, Magyar, Makedonia, Malagasi, Malayalam, Malta, Maori, Marathi, Melayu, Mongol, Nepal, Norsk, Odia (Oriya), Pashto, Polandia, Portugis, Prancis, Punjabi, Rumania, Rusia, Samoa, Serb, Sesotho, Shona, Sindhi, Sinhala, Slovakia, Slovenia, Somali, Spanyol, Sunda, Swahili, Swensk, Tagalog, Tajik, Tamil, Tatar, Telugu, Thai, Turki, Turkmen, Ukraina, Urdu, Uyghur, Uzbek, Vietnam, Wales, Xhosa, Yiddi, Yoruba, Yunani, Zulu, Bahasa terjemahan.