Bidang Teknik Penemuan
Penemuan ini berhubungan dengan sistem pengambilan informasi untuk mengindeks, mencari, dan mengklasifikasikan dokumen dalam corpus skala besar, seperti Internet. Latar Belakang Penemuan sistem pengambilan informasi, umumnya disebut mesin pencari, sekarang alat penting untuk menemukan informasi dalam skala besar, beragam, dan corpuses berkembang seperti Internet. Umumnya, mesin pencari membuat indeks yang berhubungan dokumen (atau "halaman") dengan kata-kata individu hadir dalam setiap dokumen. Sebuah dokumen yang diambil dalam menanggapi permintaan yang berisi sejumlah istilah permintaan, biasanya didasarkan pada memiliki beberapa jumlah istilah permintaan hadir dalam dokumen. Dokumen yang diambil kemudian peringkat menurut ukuran statistik lainnya, seperti frekuensi terjadinya istilah permintaan, host domain, analisa link, dan sejenisnya. Dokumen yang diambil kemudian disajikan kepada pengguna, biasanya dalam rangka mereka peringkat, dan tanpa pengelompokan lebih lanjut atau hierarki dikenakan. Dalam beberapa kasus, sebagian dipilih dari teks dokumen disajikan untuk memberikan pengguna dengan sekilas isi dokumen. Langsung "Boolean" pencocokan istilah permintaan telah dikenal keterbatasan, dan khususnya tidak mengidentifikasi dokumen yang tidak memiliki istilah permintaan, tetapi terkait kata-kata. Misalnya, dalam sistem Boolean khas, pencarian di "Shepherds Australia" tidak akan kembali dokumen tentang anjing menggiring lain seperti Border Collies yang tidak memiliki istilah permintaan yang tepat. Sebaliknya, sistem seperti ini cenderung juga mengambil dan sangat peringkat dokumen yang sekitar Australia (dan tidak ada hubungannya dengan anjing), dan dokumen tentang "gembala" umumnya. Masalahnya di sini adalah bahwa dokumen Indeks sistem konvensional berdasarkan pada istilah individu, dari pada konsep. Konsep yang sering dinyatakan dalam ungkapan, seperti "Australia Gembala", "Presiden Amerika Serikat," atau "Sundance Film Festival". Paling-paling, beberapa sistem sebelumnya akan mengindeks dokumen sehubungan dengan satu set yang telah ditentukan dan sangat terbatas 'dikenal' frase, yang biasanya dipilih oleh operator manusia. Pengindeksan frase biasanya dihindari karena kebutuhan komputasi dan memori yang dirasakan untuk mengidentifikasi semua kemungkinan frase dari mengatakan tiga, empat, atau lima atau lebih kata-kata. Misalnya, pada asumsi bahwa setiap lima kata bisa merupakan frase, dan korpus besar akan memiliki setidaknya 200.000 istilah yang unik, ada akan sekitar 3,2 × 1026 frase mungkin, jelas lebih dari sistem yang ada bisa menyimpan dalam memori atau pemrograman memanipulasi . Masalah selanjutnya adalah bahwa frase terus masuk dan meninggalkan leksikon dalam hal penggunaan mereka, jauh lebih sering daripada kata-kata individu baru yang diciptakan. Frase baru selalu dihasilkan, dari sumber-sumber teknologi tersebut, seni, peristiwa dunia, dan hukum. Frase lain akan menurun dalam penggunaan dari waktu ke waktu. Beberapa sistem pengambilan informasi yang ada berusaha untuk menyediakan pengambilan konsep dengan menggunakan pola co-terjadinya kata-kata individu. Dalam sistem ini pencarian di satu kata, seperti "Presiden" juga akan mengambil dokumen yang memiliki kata-kata lain yang sering muncul dengan "Presiden", seperti "White" dan "Rumah." Meskipun pendekatan ini dapat menghasilkan hasil pencarian yang memiliki dokumen yang yang secara konseptual terkait pada tingkat kata-kata individu, tidak biasanya menangkap hubungan topikal yang inheren antara frase co-terjadi. Oleh karena itu, ada kebutuhan untuk sistem pencarian informasi dan metodologi yang komprehensif dapat mengidentifikasi frasa dalam skala besar corpus, indeks dokumen sesuai dengan frase, mencari dan dokumen peringkat sesuai dengan frase mereka. Selain itu, ada kebutuhan dalam sistem tersebut untuk memungkinkan pengguna untuk memberikan informasi frase tambahan ke sistem dan untuk menangkap dan mengintegrasikan pengetahuan semantik yang dihasilkan. Ringkasan Penemuan Suatu sistem pencarian informasi dan metodologi menggunakan frase untuk indeks, pencarian, peringkat, dan menjelaskan dokumen dalam koleksi dokumen. Sistem ini disesuaikan dengan mengidentifikasi frase yang memiliki dan / atau penggunaan yg cukup sering dalam koleksi dokumen untuk menunjukkan bahwa mereka adalah "sah" atau "baik" frase. Dengan cara ini beberapa frase kata, misalnya frase empat, lima, atau lebih istilah, dapat diidentifikasi. Hal ini untuk menghindari masalah harus mengidentifikasi dan indeks setiap frase yang mungkin dihasilkan dari semua kemungkinan urutan dari angka yang diberikan kata-kata. Sistem ini lebih disesuaikan dengan mengidentifikasi frase yang terkait satu sama lain, berdasarkan kemampuan frase untuk memprediksi Kehadiran frasa lain dalam dokumen. Lebih khusus, ukuran prediksi digunakan yang berhubungan dengan tingkat co-kejadian yang sebenarnya dari dua frase untuk tingkat co-kejadian yang diharapkan dari dua frase. Gain informasi, sebagai rasio tingkat co-kejadian yang sebenarnya dengan yang diharapkan tingkat co-kejadian, merupakan salah satu ukuran prediksi tersebut. Dua frase yang terkait di mana ukuran prediksi melebihi ambang batas yang telah ditentukan. Dalam hal ini, kalimat kedua memiliki gain informasi yang signifikan sehubungan dengan kalimat pertama. Semantik, frase terkait akan menjadi orang yang umum digunakan untuk membahas atau menjelaskan suatu topik tertentu atau konsep, seperti "Presiden Amerika Serikat" dan "White House." Untuk frase tertentu, frase terkait dapat dipesan sesuai dengan mereka relevansi atau makna berdasarkan langkah-langkah prediksi masing-masing. Sebuah dokumen indeks sistem pencarian informasi dalam koleksi dokumen dengan frasa valid atau baik. Untuk setiap frase, daftar postingan mengidentifikasi dokumen yang berisi frase. Selain itu, untuk frase tertentu, daftar kedua, vektor, atau struktur lain digunakan untuk menyimpan data yang menunjukkan dari frase terkait kalimat yang diberikan juga hadir dalam setiap dokumen yang berisi frase diberikan. Dengan cara ini, sistem dapat dengan mudah mengidentifikasi tidak hanya yang mengandung dokumen yang frase dalam menanggapi permintaan pencarian, tetapi yang Dokumen-dokumen juga mengandung frase yang terkait dengan permintaan frase, dan dengan demikian lebih mungkin untuk secara khusus tentang topik atau konsep yang dinyatakan dalam frase query. Penggunaan frasa dan frasa terkait lanjut menyediakan untuk penciptaan dan penggunaan cluster frase terkait, yang mewakili kelompok semantik bermakna frase. Cluster diidentifikasi dari frase terkait yang memiliki ukuran prediksi yang sangat tinggi antara semua frasa di cluster. Cluster dapat digunakan untuk mengatur hasil pencarian, termasuk memilih yang dokumen dimasukkan ke dalam hasil pencarian dan ketertiban mereka, serta dokumen menghilangkan dari hasil pencarian. Website biasanya memiliki mana saja dari beberapa halaman untuk berpotensi ratusan atau ribuan halaman. Dengan demikian, informasi kalimat yang dihasilkan oleh sistem pengambilan informasi dapat digunakan untuk menentukan daftar frasa atas untuk setiap situs web, seperti frase yang paling representatif untuk website. Hal ini dapat dilakukan dengan memeriksa informasi frase terkait untuk frasa yang muncul dalam dokumen di website. Selanjutnya, informasi frase dapat kemudian dilengkapi dan disempurnakan dengan menangkap perubahan yang dibuat ke daftar frase atas oleh administrator atau pengguna lain yang berwenang dan mengintegrasikan pengetahuan semantik yang dihasilkan menjadi informasi frase sudah terkandung di dalam sistem. Administrator dapat mengaitkan frasa terkait tambahan dengan salah satu frase atas untuk website. Informasi frase terkait untuk frasa atas untuk frase terkait tambahan telah diterima kemudian diperbarui untuk menyertakan informasi yang berkaitan dengan frase terkait tambahan, dan frase yang terkait tambahan juga diperbarui untuk menyertakan informasi dari frasa atas. Ini beroperasi untuk mengobati frase tambahan seolah-olah mereka hadir di website. Selain itu, frase terkait tambahan dapat diperbarui untuk menggunakan informasi frase terkait untuk frasa atas. Penemuan ini memiliki perwujudan lebih lanjut dalam sistem dan perangkat lunak arsitektur, produk program komputer dan metode komputer dilaksanakan, dan komputer yang dihasilkan antarmuka pengguna dan presentasi. The sebelumnya hanya beberapa fitur dari sistem pencarian informasi dan metodologi berdasarkan frase. Orang yang ahli dalam seni pencarian informasi akan menghargai fleksibilitas umum dari informasi frase memungkinkan untuk berbagai macam kegunaan dan aplikasi dalam pengindeksan, dokumen penjelasan, mencari, peringkat, dan daerah lain analisis dokumen dan pengolahan. Uraian Singkat Gambar Gambar. 1 adalah diagram blok dari arsitektur perangkat lunak dari salah satu perwujudan dari penemuan ini. Gambar. 2 menggambarkan metode untuk mengidentifikasi frasa dalam dokumen. Gambar. 3 menggambarkan dokumen dengan jendela frase dan jendela sekunder. Gambar. 4 menggambarkan metode untuk mengidentifikasi frase terkait. Gambar. 5 menggambarkan metode dokumen pengindeksan untuk frase terkait. Gambar. 6 menggambarkan metode mengambil dokumen berdasarkan frase. Gambar. 7 dan 7 b menggambarkan hubungan antara referensi dan dokumen yang dirujuk. Gambar. 8 menggambarkan metode memperoleh dan mengintegrasikan frase masukan informasi dari pengguna. Gambar. 9 menggambarkan sampel antarmuka pengguna untuk menampilkan frase atas dan memungkinkan pengguna untuk perubahan masukan. Angka-angka menggambarkan perwujudan dari penemuan ini untuk tujuan ilustrasi saja. Salah satu ahli dalam bidang ini akan mudah mengenali dari pembahasan berikut yang perwujudan alternatif struktur dan metode diilustrasikan disini dapat digunakan tanpa menyimpang dari prinsip-prinsip dari penemuan yang dijelaskan di sini.
Sedang diterjemahkan, harap tunggu..
