Data Integritas Spesialis. Bertanggung jawab untuk memastikan bahwa data dalam sistem sumber sesuai dengan aturan bisnis. Data Koreksi Authority. Bertanggung jawab untuk benar-benar menerapkan teknik-data cleansing-teknik melalui penggunaan alat-alat atau program in-house. Data Konsistensi Expert. Bertanggung jawab untuk memastikan bahwa semua data dalam data gudang rumah (berbagai data mart) sepenuhnya disinkronkan.
Proses Pemurnian Kita semua tahu bahwa itu tidak realistis untuk menahan pemuatan data warehouse kecuali kualitas semua data di 100 tingkat%. Bahwa tingkat kualitas data sangat jarang. Jika demikian, berapa banyak data yang Anda harus berusaha untuk membersihkan? Ketika Anda menghentikan proses pemurnian? Sekali lagi, kita sampai pada masalah yang akan menggunakan data dan untuk tujuan apa. Memperkirakan biaya dan risiko masing-masing bagian dari data yang salah. Pengguna biasanya menetap untuk batas tertentu dari kesalahan, disediakan kesalahan ini mengakibatkan tidak ada konsekuensi serius. Namun pengguna harus disimpan informasi tentang sejauh mana kemungkinan korupsi data dan persis bagian mana dari data bisa menjadi tersangka. Bagaimana kemudian bisa melanjutkan dengan proses pemurnian? Dengan partisipasi lengkap pengguna, membagi elemen data menjadi prioritas untuk tujuan pembersihan data. Anda mungkin mengadopsi kategorisasi sederhana dengan mengelompokkan elemen data menjadi tiga kategori prioritas: tinggi, sedang, dan rendah. Mencapai kualitas data 100% sangat penting untuk kategori tinggi. Data menengah-prioritas membutuhkan sebanyak pembersihan mungkin. Beberapa Rors eh dapat ditoleransi ketika Anda keseimbangan antara biaya koreksi dan efek potensi cukup dari data yang buruk. Data prioritas rendah dapat dibersihkan jika Anda memiliki waktu dan sumber daya yang masih tersedia. Mulailah upaya pembersihan data Anda dengan data prioritas tinggi. Kemudian beralih ke data media-prioritas. Masalah korupsi data yang universal berkaitan dengan menduplikasi catatan. Sebagaimana telah kita lihat lier telinga, untuk pelanggan yang sama, mungkin ada beberapa catatan dalam sistem sumber. Catatan aktivitas terkait dengan masing-masing duplikat catatan dalam sistem sumber. Pastikan proses pemurnian data Anda secara keseluruhan termasuk teknik untuk memperbaiki masalah duplikasi. Teknik-teknik harus mampu mengidentifikasi duplikat catatan dan kemudian menghubungkan semua kegiatan untuk pelanggan ini tunggal. Duplikasi biasanya terjadi pada catatan yang berhubungan dengan orang-orang seperti pelanggan, karyawan, dan mitra bisnis. Sejauh ini, kami belum membahas kualitas data yang berkaitan dengan data yang diperoleh dari sumber eksternal. Polusi juga dapat diperkenalkan ke dalam gudang data melalui kesalahan dalam data nal eksternalitas. Tentunya, jika Anda membayar untuk data eksternal dan tidak menangkap itu dari milik umum, maka Anda memiliki hak untuk menuntut jaminan pada kualitas data. Terlepas dari apa vendor mungkin mengakui tentang kualitas data, untuk setiap set data eksternal, menyiapkan semacam audit kualitas data. Jika data eksternal gagal audit, siap untuk menolak data korup dan menuntut versi bersih. Gambar 13-7 mengilustrasikan proses pemurnian data secara keseluruhan. Silakan amati proses seperti yang ditunjukkan pada gambar dan pergi melalui ringkasan berikut:
Membangun pentingnya kualitas data. Form Data komite pengarah kualitas. Melembagakan kerangka kualitas data. Menetapkan peran dan tanggung jawab. Pilih alat untuk membantu dalam proses pemurnian data. Siapkan program in-house yang diperlukan. KUALITAS DATA INISIATIF KUALITAS INISIATIF DATA DATA KONSUMEN (User Dept) DATA EXPERT (User Dept) DATA PRODUSEN (User Dept) DATA KEBIJAKAN ADMINISTRATOR (IT Dept) INTEGRITAS DATA SPESIALIS (IT Dept ) DATA KOREKSI AUTHORITY (IT Dept) DATA KONSISTENSI EXPERT (IT Dept) Gambar 13-6 data kualitas: peserta dan peran.
Sedang diterjemahkan, harap tunggu..
