dari informasi yang dihasilkan oleh function kmeans matrix sum of squares(ss) atau sering disebut SS sangat penting untuk dijaidkan dasr kita menentukan jumlah cluster yang paling optimal
secara teoritis berita adalah beberapa hal yang bisa kita amati dengan ss:
semakin sedikit jumlah cluster yang dihasilkan maka semkain besar nilai Ss
begitu juga sebaliknya, semakin banyak jumlah cluster yang dihasilkan semakin kecil nilai SS
karna sifatnya kuadratik, jika terdapat perbedaan yang cukup signifikan antara tiap kombinasi cluster maka perbedaan nilai SS semakin besar
bertambahnya jumlah cluster, perbedaan SS akan semakin kecil
jika dimasukkan ke dalam grafik garis, maka plotting dari total SS untuk tiap cluster berbentuk sebagai berikut.

Titik paling kiri adalah jumlah SS untuk 1 jumlah cluster, titik kedua untuk 2 jumlah cluster. grafik garis ini memiliki bentuk seperti siku tangan, dan untuk optimal jumlah cluster biasanya kita mengambil titik sikunya.
matrix elbow method yang digunakan sebagai basis justifikasi adalah SS, atau lebih tepatnya komponen tot.withinss dari objek kmeans. matrix ini akan dicari progressive untuk keperluan ini kita akan gunakan supply. Function Sapply akan digunakan untuk memanggil function kmeans untuk suatu range jumlah cluster range ini akan digunakan 1 sampai 10.
kali ini akan visualisasikan SS atau SSe yang telah dihasilkn pada praktek sebelumnya.



Cluster 1: Silever Youth Gals: Alasannya adalah karena Umumnya rata-rata 20, wanita semua, profesinya antar pelajar dan profesional serta pembelajanjaan sekitar 6 juta.
Cluster 2: Diamond senior member: alasannya adalah karena umumnya rata-rat aadalah 61 tahun dan pembelanjaanya diatas * juta.
Cluster3: Gold Young Professional alasannya adalah karena umurnya rata-rata 31 professional dan pembelanjaan cukup besar
Cluster4: Diamond Profesional: alasannya adalah karena umurnya rata-rata 42 tahun, pembelanjaan paling tinggi dan semuanya profesional.
Cluster5: Silver mid Proffesional: Alasannya adalah karena umunya rata-rata 52 tahun dan pembelanjaanya sekita 6 juta
dataset pelanggan yang telah “diperkaya” dengan tambahan kolom hasil konversi teks menjadi numerik, dan menormalisasikan field nilai belanja setahun
objek kmeans dengan k=5, dipilih berdasarkan metodologi menggunakan matrix sum of squares(ss)
membuat variabel referensi atau pemetaan numerik dan teks asli (kategori) dari kolom jenis kelamin, profesi dan tipe Residen
Variabel data.fream dengan nama pelanggan yang berisi penamaan cluster sesuai analisa karakteristik dari centroid kolo-kolom pelanggan yang digunakan
vector dari field yang digunakan
objek yang sudh digabungkan pada praktek sebelumnya sudah memiliki semua aset yang diperlukan untuk mengalokasikan data baru ke segmen yang sesuai.
untuk menyimpan objek ini ke dalam file kita gunakan function saveRDS file ini kemudia dapat dibuka kembali sebagai objek ke depannya.
MERGE DENGAN DATA REFERENSI
dengan adanya data baru dan objek yang berisi data referensi yang telah dibaca kembali, kita bisa menggabungkan data baru ini untuk mendapatkan konversi numerik dari field jenis kelamin profesi dan tipe residen
dengan tujuan adalah kita akan bisa mencari segmen pelanggan dengan data numerik hasil penggabungan. cara menggabungkannya adalah dengan menggunakan function merge, dimana kedua data akan digabungkan dengan mencari persamaan namakolom dan isinya.
MENETUKAN CLUSTER
yaitu dengan tahapan berikut:
mencari jarak kuadrat minimun atau terdekat
dari kolom numerik data baru tersebut
ke centroid kolom terkait
dari seluruh cluster yang ada

dimana:
min: merupkan function untuk mencari nilai minimum
1:5 adalah range nomor cluster dari 1 sampai dengan 5
sapply: digunakan untuk melakukan literasi berdasarkan range (dalam kasus ini 1s/d5)
function(x): digunakan untuk proses dengan x diisi 1 s/d 5 per proces
jarak kuadrat data
sum: digunakan untuk menjumlahkan jarak kuadrat