Pesatnya pertumbuhan minat data mining adalah karena 1) jatuh biaya perangkat penyimpanan yang besar dan meningkatkan kemudahan pengumpulan data melalui jaringan; 2) pengembangan algoritma pembelajaran mesin yang kuat dan ef¬ficient untuk memproses data ini; dan
3) jatuh biaya tenaga komputasi, memungkinkan penggunaan metode com-putationally intensif untuk analisis data [16].
Gagasan skalabilitas berkaitan dengan proses yang efisien seperti set data yang besar, sementara menghasilkan dari mereka yang terbaik model pos-jawab. Alasan yang paling sering dikutip untuk scaling up adalah bahwa meningkatkan ukuran pelatihan ditetapkan sering meningkatkan akurasi model klasifikasi belajar. Dalam banyak kasus, degradasi akurasi ketika belajar dari sampel yang lebih kecil berasal dari overfitting, kehadiran kebisingan, dan adanya sejumlah besar fitur. Sekali lagi, scaling up untuk set data yang sangat besar im¬plies bahwa algoritma pembelajaran cepat harus dikembangkan. Namun, bukan mempercepat algoritma lambat, masalah ini lebih dari mengubah algoritma praktis menjadi satu layak. Sejumlah besar contoh memperkenalkan potensi masalah dengan waktu dan kompleksitas ruang. Akhirnya, tujuan pembelajaran (misalnya, akurasi klasifikasi) tidak boleh secara substansial dikorbankan oleh algoritma scaling. Tiga pendekatan utama untuk scaling up meliputi [54] sebagai berikut:
Sedang diterjemahkan, harap tunggu..
