Hasil (
Bahasa Indonesia) 1:
[Salinan]Disalin!
Dalam konteks lain, dimana 0 dan 1 membawa setara informasi (simetri), SMC adalah ukuran lebih baik kesamaan. Sebagai contoh, vektor dari variabel-variabel demografik disimpan dalam variabel dummies, seperti jenis kelamin, akan lebih baik dibandingkan dengan SMC daripada dengan Jaccard indeks karena dampak gender pada kesamaan harus menjadi sama, independen dari Apakah laki-laki didefinisikan sebagai 0 dan laki-laki sebagai 1 atau sebaliknya. Namun, ketika kita memiliki variabel dummy simetris, salah satu bisa meniru perilaku SMC oleh membelah boneka ke dua sifat-sifat biner (dalam kasus ini, laki-laki dan perempuan), dengan demikian mengubah mereka menjadi atribut asimetris, memungkinkan penggunaan indeks Jaccard tanpa memperkenalkan bias. Dengan menggunakan trik ini, indeks Jaccard dapat dianggap sebagai membuat SMC metrik sepenuhnya berlebihan. SMC tetap namun lebih produk efisien dalam hal simetris dummy variabel karena tidak memerlukan menambahkan dimensi ekstra.Secara umum, indeks Jaccard dapat dianggap sebagai indikator lokal "kesamaan" sementara SMC mengevaluasi "kesamaan" relatif terhadap seluruh "alam semesta". Persamaan dan ketidaksamaan harus dipahami dalam pengertian relatif. Misalnya, jika hanya ada 2 atribut (x, y), maka A=(1,0) adalah intuitif sangat berbeda dari B=(0,1). Namun jika ada 10 atribut "alam semesta", A=(1,0,0,0,0,0,0,0,0,0) dan B=(0,1,0,0,0,0,0,0,0) yang tidak secara intuitif begitu berbeda lagi. Jika fokus kembali menjadi hanya di A dan B, atribut 8 sisa sering dianggap sebagai berlebihan. Sebagai akibatnya, A dan B adalah sangat berbeda dalam arti "lokal" (yang indeks Jaccard mengukur efisien), tapi kurang berbeda dalam arti "global" (yang SMC mengukur efisien). Dari ini sudut pandang, pilihan menggunakan SMC atau indeks Jaccard datang ke lebih dari sekedar simetri dan asimetri informasi dalam atribut. Distribusi set didefinisikan "alam semesta" dan sifat dari masalah yang akan dibuat modelnya juga harus dipertimbangkan.Indeks Jaccard juga lebih umum daripada SMC dan dapat digunakan untuk membandingkan data jenis lain daripada hanya vektor biner atribut, seperti langkah-langkah probabilitas.
Sedang diterjemahkan, harap tunggu..
