Menormalkan data yang tidak konsisten Meningkatkan penggabungan data dari sumber data yang berbeda Group dan berhubungan catatan pelanggan milik rumah tangga yang sama Memberikan pengukuran kualitas data Validasi untuk nilai-nilai yang diijinkan
DBMS untuk Quality Control Sistem manajemen database itu sendiri digunakan sebagai alat untuk data kontrol qualtiy di banyak jalan. Sistem manajemen database relasional memiliki banyak fitur luar mesin database (lihat daftar di bawah). Kemudian versi RDBMS dapat dengan mudah mencegah beberapa jenis Rors eh merayap ke dalam gudang data.
Integritas Domain. Memberikan nilai domain suntingan. Mencegah masuknya data jika nilai data yang dimasukkan adalah di luar batas yang ditentukan dari nilai. Anda dapat menentukan mengedit pemeriksaan sementara set-ting up entri kamus data. Memperbarui keamanan. Mencegah update tanpa izin ke database. Fitur ini akan menghentikan pengguna yang tidak sah dari pemutakhiran data dengan cara yang tidak benar. Pengguna biasa dan terlatih dapat memperkenalkan data yang tidak akurat atau tidak benar jika mereka diberikan otorisasi untuk memperbarui. Integritas entitas memeriksa. Memastikan bahwa catatan duplikat dengan nilai-nilai kunci primer yang sama tidak masuk. Juga mencegah duplikasi berdasarkan nilai-nilai dari atribut lainnya. Meminimalkan nilai yang hilang. Pastikan bahwa nulls tidak diperbolehkan di bidang wajib. Integritas referensial memeriksa. Memastikan bahwa hubungan berdasarkan kunci asing yang diawetkan. Mencegah penghapusan baris induk terkait. Kesesuaian dengan aturan bisnis. Gunakan program pemicu dan prosedur yang tersimpan untuk en- kekuatan aturan bisnis. Ini adalah script khusus disusun dan disimpan dalam database itu sendiri. Program pemicu secara otomatis dipecat ketika item data yang ditunjuk akan segera diperbarui atau dihapus. Prosedur yang tersimpan dapat kode untuk memastikan bahwa data yang dimasukkan sesuai dengan aturan bisnis yang spesifik. Disimpan prosedur dapat dipanggil dari program aplikasi.
INISIATIF KUALITAS DATA
Terlepas dari pentingnya besar kualitas data, tampaknya seolah-olah banyak perusahaan masih mengajukan pertanyaan apakah untuk membayar perhatian khusus untuk itu dan membersihkan data atau tidak. Dalam banyak kasus, data untuk nilai yang hilang atribut tidak dapat diciptakan. Dalam cukup banyak kasus, nilai data sangat berbelit-belit bahwa data dapat benar-benar dibersihkan. Beberapa pertanyaan lain muncul. Harus data dibersihkan? Jika demikian, berapa banyak yang benar-benar dapat dibersihkan? Bagian mana dari data pantas prioritas yang lebih tinggi untuk menerapkan teknik pembersihan data? Ketidakpedulian dan ketahanan terhadap pembersihan data muncul dari faktor valid beberapa:
Pembersihan data membosankan dan memakan waktu. Kegiatan pembersihan menuntut kombinasi penggunaan alat penjual, penulisan kode di-rumah, dan sulit
tugas manual verifikasi dan pemeriksaan. Banyak perusahaan tidak dapat sus- tain usaha. Ini bukan jenis pekerjaan banyak profesional TI menikmati. Metadata pada banyak sistem sumber mungkin hilang atau tidak ada. Ini akan menjadi ficult-beda atau bahkan tidak mungkin untuk menyelidiki data kotor tanpa dokumentasi. Pengguna yang diminta untuk memastikan kualitas data memiliki banyak bisnis lain tanggung jawab. Kualitas data mungkin menerima setidaknya perhatian. Kadang-kadang, aktivitas pembersihan data tampaknya begitu besar dan luar biasa bahwa perusahaan takut meluncurkan inisiatif pembersihan data.
Setelah perusahaan Anda memutuskan untuk melembagakan inisiatif pembersihan data, Anda dapat mempertimbangkan salah satu dari dua pendekatan. Anda dapat memilih untuk membiarkan data yang hanya bersih ke dalam gudang data Anda. Ini berarti hanya data dengan kualitas 100% dapat dimuat ke dalam gudang data. Data yang ada di cara apapun tercemar harus dibersihkan sebelum dapat dimuat. Ini adalah pendekatan yang ideal, namun butuh beberapa saat untuk mendeteksi data yang tidak benar dan bahkan lebih lama untuk memperbaikinya. Pendekatan ini al ide- dari sudut pandang kualitas data, tetapi akan memakan waktu yang sangat lama sebelum semua data dibersihkan untuk loading data. Pendekatan kedua adalah metode "bersih saat Anda pergi". Dalam metode ini, Anda memuat semua data "sebagaimana adanya" ke dalam gudang data dan melakukan operasi pembersihan data di data warehouse di lain waktu. Meskipun Anda tidak menahan beban data, hasil query setiap tersangka sampai data akan dibersihkan. Kualitas data dipertanyakan setiap saat menyebabkan kehilangan kepercayaan pengguna yang sangat penting bagi keberhasilan data warehouse.
Keputusan Pembersihan data Sebelum memulai inisiatif pembersihan data, tim proyek, termasuk pengguna, harus membuat sejumlah keputusan dasar. Pembersihan data tidak sesederhana memutuskan untuk membersihkan semua data dan untuk membersihkan sekarang. Sadarilah bahwa kualitas data mutlak tidak realistis di dunia nyata. Praktis dan realistis. Pergi untuk kebugaran-untuk-tujuan prinsip. Tambang mencegah- data apa yang sedang digunakan dan menemukan tujuan. Jika data dari gudang harus menyediakan dolar penjualan yang tepat dari dua puluh lima pelanggan, maka kualitas data ini harus sangat tinggi. Jika demografi pelanggan yang akan digunakan untuk memilih prospek untuk kampanye pemasaran berikutnya, kualitas data ini mungkin pada tingkat yang lebih rendah. Dalam analisis akhir, ketika datang ke pembersihan data, Anda dihadapkan dengan pertanyaan mendasar mental yang sedikit. Anda harus membuat beberapa keputusan dasar. Pada subbagian berikut, kami menyajikan pertanyaan dasar yang perlu ditanyakan dan keputusan dasar yang perlu dibuat.
Yang Data ke Cleanse. Ini adalah keputusan root. Pertama-tama, Anda dan pengguna Anda harus bersama-sama bekerja di luar jawaban untuk pertanyaan ini. Ini harus menjadi terutama sion-keputusan pengguna. IT akan membantu pengguna membuat keputusan. Tentukan jenis pertanyaan data warehouse diharapkan untuk menjawab. Cari sumber data yang dibutuhkan untuk mendapatkan jawaban. Timbang manfaat membersihkan setiap bagian data. Menentukan bagaimana pembersihan akan membantu dan bagaimana meninggalkan data kotor di akan mempengaruhi setiap analisis yang dibuat oleh pengguna di gudang data. Biaya membersihkan semua data di data warehouse sangat besar. Pengguna biasanya un hami ini. Mereka tidak mengharapkan untuk melihat kualitas data 100% dan biasanya akan puas ig- Noring pembersihan data penting asalkan semua data penting dibersihkan.
Sedang diterjemahkan, harap tunggu..