Sebelum mencoba untuk deduplicate catatan pelanggan, Anda perlu melalui langkah pendahuluan. Pertama, Anda harus menyusun kembali nama dan alamat data ke format beberapa bidang. Ini tidak mudah, mengingat banyak variasi dalam nama jalan dan alamat yang dimasukkan dalam format tekstual-bentuk bebas. Setelah langkah pertama ini, Anda harus menyusun algoritma pencocokan untuk mencocokkan data pelanggan dan menemukan duplikat. Untungnya, banyak alat yang baik yang tersedia untuk membantu Anda dalam proses deduplication.
Biaya Miskin Kualitas Data Cleansing data dan meningkatkan kualitas data membutuhkan waktu uang dan usaha. Meskipun pembersihan data sangat penting, Anda bisa membenarkan pengeluaran uang dan ef- benteng dengan menghitung biaya tidak memiliki atau menggunakan data yang berkualitas. Anda dapat menghasilkan perkiraan dengan bantuan pengguna. Mereka adalah orang-orang yang benar-benar dapat melakukan perkiraan karena estimasi pasangan didasarkan pada perkiraan kesempatan yang hilang dan kemungkinan keputusan yang buruk. Berikut ini adalah daftar kategori yang perkiraan biaya dapat dibuat. Ini adalah kategori besar. Anda harus masuk ke rincian untuk memperkirakan risiko dan biaya untuk setiap kategori.
Keputusan Bad berdasarkan analisis Kehilangan peluang bisnis rutin karena tidak tersedia atau Regangan "kotor" Data dan overhead pada sistem sumber karena data yang menyebabkan tayangan ulang Denda dari pemerintah instansi bagi yang melanggar atau melanggar peraturan Resolusi masalah pemeriksaan
Redundant data tidak perlu menggunakan sumber daya yang tidak konsisten melaporkan Waktu dan usaha untuk memperbaiki data setiap data korupsi waktu ditemukan
ALAT KUALITAS DATA
Berdasarkan diskusi kami dalam bab ini sejauh ini, Anda berada di titik di mana Anda yakin tentang keseriusan kualitas data dalam data warehouse. Perusahaan telah mulai untuk meralat ognize data kotor sebagai salah satu masalah yang paling menantang dalam sebuah gudang data. Anda akan, oleh karena itu, membayangkan bahwa perusahaan harus investasi besar-besaran dalam data bersih-up operasi. Namun menurut para ahli, pembersihan data masih belum menjadi prioritas yang sangat tinggi bagi perusahaan. Sikap ini berubah alat kualitas data berguna tiba di pasar. Anda dapat memilih untuk menerapkan alat ini untuk sistem sumber, di area stage sebelum memuat gambar diciptakan, atau gambar beban sendiri.
Categories Alat Pembersihan data Umumnya, alat pembersihan data membantu tim proyek dalam dua cara. Alat penemuan kesalahan data bekerja pada sumber data untuk mengidentifikasi ketidakakuratan dan inkonsistensi. Alat koreksi Data membantu memperbaiki data yang korup. Alat koreksi ini menggunakan serangkaian algoritma untuk mengurai, mengubah, pertandingan, konsolidasi, dan memperbaiki data. Meskipun penemuan kesalahan data dan koreksi data dua bagian yang berbeda dari proses pembersihan data, sebagian besar alat di pasar melakukan sedikit baik. Alat memiliki fitur dan fungsi yang mengidentifikasi dan menemukan kesalahan. Alat yang sama juga dapat melakukan bersih-ing dan koreksi data tercemar. Pada bagian berikut, kami akan memeriksa ciri-ciri dari dua aspek pembersihan data seperti yang ditemukan dalam alat yang tersedia.
Kesalahan Penemuan Fitur Silakan mempelajari daftar berikut fungsi penemuan kesalahan bahwa alat pembersihan data yang mampu melakukan.
Cepat dan mudah mengidentifikasi duplikat catatan Mengidentifikasi item data yang nilainya berada di luar rentang nilai domain hukum Cari konsisten Data Periksa untuk rentang nilai yang diijinkan Mendeteksi inkonsistensi antara item data dari sumber yang berbeda Memungkinkan pengguna untuk mengidentifikasi dan mengukur masalah kualitas data Memantau tren dalam kualitas data dari waktu ke waktu Laporkan untuk pengguna pada kualitas data yang digunakan untuk analisis Rekonsiliasi masalah RDBMS integritas referensial
Koreksi Data Fitur Daftar berikut ini menjelaskan kesalahan fungsi koreksi khas bahwa alat pembersihan data yang mampu melakukan.
Sedang diterjemahkan, harap tunggu..
