Hasil (
Bahasa Indonesia) 1:
[Salinan]Disalin!
1. Abaikan tupel. Hal ini biasanya dilakukan ketika label kelas hilang
(yaitu, dengan asumsi tugas pertambangan melibatkan klasifikasi). Metode ini bukanlah
sangat efektif, kecuali tupel mengandung beberapa atribut dengan nilai hilang.
sangat miskin terutama ketika persentase nilai-nilai yang hilang setiap atribut bervariasi
jauh.
2. Masukkan nilai yang hilang secara manual. Secara umum,1. Abaikan tupel. Hal ini biasanya dilakukan ketika label kelas hilang
(yaitu, dengan asumsi tugas pertambangan melibatkan klasifikasi). Metode ini bukanlah
sangat efektif, kecuali tupel mengandung beberapa atribut dengan nilai hilang.
sangat miskin terutama ketika persentase nilai-nilai yang hilang setiap atribut bervariasi
jauh.
2. Masukkan nilai yang hilang secara manual. Secara umum, pendekatan ini sangat memakan waktu
dan mungkin tidak layak diberikan dataset besar dengan banyak nilai hilang.
3. Menggunakan konstanta global untuk mengisi nilai hilang. Mengganti semua hilang atribut
nilai-nilai oleh konstan sama, seperti label seperti "Tidak diketahui" atau — ∞. Jika hilang
nilai digantikan oleh, mengatakan, "Tidak diketahui", maka pertambangan program mungkin keliru
berpikir bahwa mereka membentuk sebuah konsep menarik, karena mereka semua memiliki nilai
umum-yang "Tidak diketahui." Oleh karena itu, walaupun metode ini sederhana, tidaklah
sangat mudah.
4. Gunakan atribut berarti untuk mengisi nilai hilang. Sebagai contoh, Anggaplah bahwa
pendapatan rata-rata SemuaElektronika pelanggan adalah $56.000. Menggunakan nilai ini untuk
mengganti nilai yang hilang untuk pendapatan.
5. Gunakan atribut berarti untuk semua sampel milik kelas yang sama seperti
diberikan tupel. Misalnya, jika mengklasifikasikan pelanggan risiko kredit,
mengganti nilai hilang dengan nilai rata-rata pendapatan untuk pelanggan di
kategori risiko kredit sama seperti yang diberikan tupel.
6. Gunakan nilai yang paling mungkin untuk mengisi nilai hilang. Ini dapat ditentukan
dengan regresi, alat berbasis kesimpulan yang menggunakan Bayesian formalism, atau
keputusan pohon induksi. Misalnya, menggunakan pelanggan lain atribut di
dataset, Anda dapat membangun sebuah pohon keputusan untuk memprediksi nilai hilang
untuk pendapatan.
Sedang diterjemahkan, harap tunggu..