1) data set besar-besaran dan dimensi tinggi. Set data yang besar membuat ruang pencarian combinatorially peledak untuk model induksi, dan meningkatkan kemungkinan bahwa al¬gorithm data mining akan menemukan pola palsu yang tidak umumnya berlaku. Solusi yang mungkin termasuk al¬gorithms kuat dan efisien, metode pendekatan sampling dan pemrosesan paralel.
2) Interaksi pengguna dan pengetahuan sebelumnya. Data mining adalah di-herently proses interaktif dan iteratif. Pengguna dapat berinteraksi pada berbagai tahap, dan pengetahuan domain dapat
digunakan baik dalam bentuk spesifikasi tingkat tinggi dari model, atau pada tingkat yang lebih rinci. Visualisasi model ex¬tracted juga diinginkan.
3) Overfitting dan menilai signifikansi statistik. Set data yang digunakan untuk pertambangan biasanya besar dan tersedia dari sumber didistribusikan. Akibatnya, sering adanya titik data spu¬rious menyebabkan overfitting model. Regu¬larization dan resampling metodologi perlu em¬phasized untuk model desain.
4) ofpatterns Understandability. Hal ini diperlukan untuk membuat penemuan lebih dimengerti manusia. Kemungkinan so¬lutions termasuk aturan penataan, alam bahasa Repre-sentation, dan visualisasi data dan pengetahuan.
5) Data tidak standar dan tidak lengkap. Data dapat hilang dan / atau berisik.
6) media data Campuran. Belajar dari data yang diwakili oleh kombinasi dari berbagai media, seperti (katakanlah) numerik, simbolik, gambar dan teks.
7) Pengelolaan mengubah data dan pengetahuan. Cepat berubah data, dalam database yang diubah / dihapus / aug¬mented, dapat membuat pola yang ditemukan sebelumnya tidak valid. Solusi yang mungkin termasuk metode tambahan untuk memperbarui pola.
8) Integrasi. Alat data mining sering hanya bagian dari seluruh sistem pengambilan keputusan. Sangat diharapkan bahwa mereka mengintegrasikan dengan lancar, baik dengan database dan prosedur pengambilan keputusan akhir.
Sedang diterjemahkan, harap tunggu..
