Tetapi pastikan untuk mendapatkan definisi dari apa yang penting atau tidak penting dari pengguna sendiri.
Dimana Cleanse. Data untuk gudang Anda berasal dari sumber sistem-sistem operasional, demikian data korupsi. Kemudian data diekstraksi bergerak ke area stage. Dari area stage memuat gambar yang dimuat ke dalam gudang data. Oleh karena itu, theoret- turun tajam, Anda mungkin membersihkan data di salah satu dari daerah-daerah tersebut. Anda mungkin menerapkan teknik pembersihan data di sistem sumber, di area stage, atau mungkin bahkan di rumah data gudang. Anda juga dapat mengadopsi metode yang membagi upaya pembersihan data keseluruhan menjadi bagian-bagian yang dapat diterapkan dalam dua daerah, atau bahkan di semua tiga wilayah. Anda akan menemukan bahwa pembersihan data setelah itu telah tiba di gudang data reposito- ry tidak praktis dan hasil dalam mengurai efek dari banyak proses untuk bergerak dan loading data. Biasanya, data dibersihkan sebelum disimpan di gudang data. Jadi yang membuat Anda dengan dua area di mana Anda dapat membersihkan data. Pembersihan data di area stage relatif mudah. Anda telah diselesaikan semua masalah ekstraksi data. Pada saat data diterima di area stage, Anda sepenuhnya menyadari struktur, isi, dan sifat data. Meskipun ini tampaknya menjadi pendekatan yang terbaik, ada beberapa kelemahan. Polusi Data akan terus mengalir ke daerah ing stag- dari sistem sumber. Sistem sumber akan terus menderita konsekuensi dari korupsi data. Biaya data yang buruk dalam sistem sumber tidak mendapatkan berkurang. Setiap laporan yang dihasilkan dari data yang sama dari sistem sumber dan dari gudang data mungkin tidak cocok dan akan menyebabkan kebingungan. Di sisi lain, jika Anda mencoba untuk membersihkan data dalam sistem sumber, Anda ing tak- pada tugas yang kompleks, mahal, dan sulit. Banyak sistem sumber warisan tidak memiliki dokumentasi yang tepat. Beberapa bahkan mungkin tidak memiliki kode sumber untuk gram produksi pro tersedia untuk menerapkan koreksi.
Cara Membersihkan. Berikut pertanyaannya adalah tentang penggunaan alat penjual. Apakah Anda menggunakan alat penjual sendiri untuk semua upaya pembersihan data? Jika tidak, berapa banyak pemrograman in-house diperlukan untuk lingkungan Anda? Banyak alat yang tersedia di ket mar- untuk beberapa jenis fungsi pembersihan data. Jika Anda memutuskan untuk membersihkan data dalam sistem sumber, maka Anda harus menemukan alat propriate ap yang dapat diterapkan ke file sistem sumber dan format. Ini mungkin tidak mudah jika sebagian besar sistem sumber Anda cukup tua. Dalam hal ini, Anda harus kembali pada program in-house.
Cara Temukan Tingkat Polusi data. Sebelum Anda dapat menerapkan data teknik ing cleans-, Anda harus menilai sejauh mana pencemaran data. Ini adalah ty jawab mereka bersama bersama antara pengguna sistem operasional, pengguna potensial dari rumah data gudang, dan IT. Staf IT, mendukung kedua sistem sumber dan data warehouse, memiliki peran khusus dalam penemuan tingkat polusi data. IT bertanggung jawab untuk menginstal alat pembersihan data dan pelatihan pengguna dalam menggunakan alat tersebut. TI harus meningkatkan upaya dengan program in-house. Dalam bagian sebelumnya, kita membahas sumber polusi data. Menguji kembali sumber-sumber ini. Buatlah daftar yang mencerminkan sumber pencemaran ditemukan di lingkungan Anda, kemudian menentukan tingkat polusi data yang berkaitan dengan setiap sumber polusi. Contohnya, dalam kasus Anda, data penuaan bisa menjadi sumber polusi. Jika demikian, membuat daftar semua sistem warisan lama yang berfungsi sebagai sumber data untuk data warehouse Anda. Untuk data di-
upeti yang diekstrak, memeriksa set nilai-nilai. Periksa apakah salah satu dari nilai-nilai ini tidak masuk akal dan telah membusuk. Demikian pula, melakukan analisis rinci untuk setiap jenis sumber pencemaran data. Silahkan lihat di Gambar 13-4. Dalam gambar ini, Anda menemukan cara khas beberapa Anda dapat mendeteksi keberadaan mungkin dan tingkat polusi data. Gunakan daftar sebagai panduan untuk pemerintah lingkungan Anda.
Sedang diterjemahkan, harap tunggu..