menentukan jumlah cluster

dari informasi yang dihasilkan oleh function kmeans matrix sum of squares(ss) atau sering disebut SS sangat penting untuk dijaidkan dasr kita menentukan jumlah cluster yang paling optimal

secara teoritis berita adalah beberapa hal yang bisa kita amati dengan ss:

Titik paling kiri adalah jumlah SS untuk 1 jumlah cluster, titik kedua untuk 2 jumlah cluster. grafik garis ini memiliki bentuk seperti siku tangan, dan untuk optimal jumlah cluster biasanya kita mengambil titik sikunya.

Simulasi jumlah Cluster dan SS

matrix elbow method yang digunakan sebagai basis justifikasi adalah SS, atau lebih tepatnya komponen tot.withinss dari objek kmeans. matrix ini akan dicari progressive untuk keperluan ini kita akan gunakan supply. Function Sapply akan digunakan untuk memanggil function kmeans untuk suatu range jumlah cluster range ini akan digunakan 1 sampai 10.

Grafik Elbow Effect

kali ini akan visualisasikan SS atau SSe yang telah dihasilkn pada praktek sebelumnya.

pemaketam model Kmeans

Menamakan Segmen
  • Cluster 1: Silever Youth Gals: Alasannya adalah karena Umumnya rata-rata 20, wanita semua, profesinya antar pelajar dan profesional serta pembelajanjaan sekitar 6 juta.

  • Cluster 2: Diamond senior member: alasannya adalah karena umumnya rata-rat aadalah 61 tahun dan pembelanjaanya diatas * juta.

  • Cluster3: Gold Young Professional alasannya adalah karena umurnya rata-rata 31 professional dan pembelanjaan cukup besar

  • Cluster4: Diamond Profesional: alasannya adalah karena umurnya rata-rata 42 tahun, pembelanjaan paling tinggi dan semuanya profesional.

  • Cluster5: Silver mid Proffesional: Alasannya adalah karena umunya rata-rata 52 tahun dan pembelanjaanya sekita 6 juta

menggabungkan Referensi

  • dataset pelanggan yang telah “diperkaya” dengan tambahan kolom hasil konversi teks menjadi numerik, dan menormalisasikan field nilai belanja setahun

  • objek kmeans dengan k=5, dipilih berdasarkan metodologi menggunakan matrix sum of squares(ss)

  • membuat variabel referensi atau pemetaan numerik dan teks asli (kategori) dari kolom jenis kelamin, profesi dan tipe Residen

  • Variabel data.fream dengan nama pelanggan yang berisi penamaan cluster sesuai analisa karakteristik dari centroid kolo-kolom pelanggan yang digunakan

  • vector dari field yang digunakan

    cara menyimpan Objek dalam bentuk file

    objek yang sudh digabungkan pada praktek sebelumnya sudah memiliki semua aset yang diperlukan untuk mengalokasikan data baru ke segmen yang sesuai.

    untuk menyimpan objek ini ke dalam file kita gunakan function saveRDS file ini kemudia dapat dibuka kembali sebagai objek ke depannya.

    MERGE DENGAN DATA REFERENSI

    dengan adanya data baru dan objek yang berisi data referensi yang telah dibaca kembali, kita bisa menggabungkan data baru ini untuk mendapatkan konversi numerik dari field jenis kelamin profesi dan tipe residen

    dengan tujuan adalah kita akan bisa mencari segmen pelanggan dengan data numerik hasil penggabungan. cara menggabungkannya adalah dengan menggunakan function merge, dimana kedua data akan digabungkan dengan mencari persamaan namakolom dan isinya.

    MENETUKAN CLUSTER

    yaitu dengan tahapan berikut:

  • mencari jarak kuadrat minimun atau terdekat

  • dari kolom numerik data baru tersebut

  • ke centroid kolom terkait

  • dari seluruh cluster yang ada

    dimana:

  • min: merupkan function untuk mencari nilai minimum

  • 1:5 adalah range nomor cluster dari 1 sampai dengan 5

  • sapply: digunakan untuk melakukan literasi berdasarkan range (dalam kasus ini 1s/d5)

  • function(x): digunakan untuk proses dengan x diisi 1 s/d 5 per proces

  • jarak kuadrat data

  • sum: digunakan untuk menjumlahkan jarak kuadrat