Customer Segmentation

Pengantar

Menurut Shopify, definisi dari Customer Segmentation/Segmentasi Pelanggan adalah proses membagi pelanggan menjadi beberapa kelompok berdasarkan karakteristik umum sehingga perusahaan dapat memasarkan kepada setiap kelompok secara efektif dan tepat.
Dalam marketing B2B (Business-to-business), perusahaan atau sebuah badan munngkin akan mengelompokkan konsumen berdasarkan beberapa faktor:
a.Industri yang dijalankan b.Jumlah karyawan/SDM c.Produk-produk yang dijual sebelumnya d.Lokasi
Dalam marketing B2C (Business-to-consumer), perusahaan atau badan sering mengelompokkan berdasarkan beberapa demografisnya:
a.Usia b.Jenis kelamin c.Status hubungan (Menikah, lajang, dll) d.Lokasi (Perkotaan, pinggiran kota, pedesaan) e.Tipe profesi atau pekerjaan
Kenapa Customer Segmentation penting?
a.Dapat membuat pesan pemasaran yang lebih mengena ke setiap pelanggan b.Bisa lebih mengenal customer/pelanggan c.Biaya pemasaran bisa menjadi lebih rendah
Kenapa perlu bantuan algoritma untuk Customer Segmentation?
a.Agar dapat membagi-bagi segmen customer dengan mudah b.Dapat membantu kita menentukan jumlah clustering yang optimal c.Dapat memberikan hasil yang lebih cepat d.Karena bisa memberikan best practice
Kesimpulan

Customer segmentation adalah proses penting yang diperlukan di bisnis untuk mengenal konsumen dengan lebih baik Dengan demikian proses bisnis di marketing (pemasaran) dan CRM (customer relationship management) bisa dilakukan lebih tajam. Contoh: pesan marketing bisa lebih personal untuk setiap segment dengan biaya lebih optimal. Dengan proses yang lebih tajam, performa bisnis berpotensi tinggi menjadi lebih baik juga. Untuk menemukan segmentasi yang baik, perlu proses analisa data dari profile customer yang cukup banyak dan rutin. Ini bisa dibantu dengan algoritma komputer.
Persiapan Data
Dataset Customer Segments

Konversi Data dengan Fungsi data.matrix()

Isi data dari tiga kolom pelanggan diatas yaitu “Jenis.Kelamin”, “Profesi” dan “Tipe.Residen” merupakan data kategori yang berupa teks.
Untuk fungsi k-means, ketiga kolom ini tidak bisa digunakan kecuali isi dikonversi menjadi numerik. Salah satu caranya adalah dengan menggunakan fungsi data.matrix().
head(customer_matrix)
Jenis.Kelamin Profesi Tipe.Residen
[1,] 1 5 2
[2,] 2 3 1
[3,] 1 4 1
[4,] 1 4 1
[5,] 2 5 1
[6,] 2 4 1
maka hasilnya akan berupa numerik yang mewakili suatu nilai di suatu kolom. Jenis.Kelami, pria = 1 dan wanita = 2. Dan seterusnya untuk setiap kolom.
Menggabungkan Hasil Konversi

Setelah dikonversi, perlu juga mengetahui bagaimana menggabungkan kembali data tersebut ke variable asal.
Menormalisasikan Nilai Belanja

Kali ini perhatikan kolom “NilaiBelanjaSetahun”. Isi datanya bernilai jutaan. Ketika kolom ini digunakan untuk clustering, perhitungan sum of squared errors akan menjadi sangat besar.
customer$NilaiBelanjaSetahun
[1] 9.497927 2.722700 5.286429 5.204498 10.615206 5.215541 9.837260 5.223569
[9] 5.993218 5.257448 5.987367 5.941914 9.333168 9.471615 10.365668 5.262521
[17] 5.677762 5.340690 10.884508 2.896845 9.222070 5.298157 5.239290 10.259572
[25] 10.721998 5.269392 9.114159 6.631680 5.271845 5.020976 3.042773 10.663179
[33] 3.047926 9.759822 5.962575 9.678994 5.972787 10.477127 5.257775 2.861855
[41] 6.820976 9.880607 5.268410 9.339737 5.211041 10.099807 6.130724 10.390732
[49] 4.992585 10.569316
Membuat Data Master

Setelah penggabungan data, disini jadi mengetahui sebenarnya teks kategori dikonversi menjadi angka numerik berapa.
Clustering dan Algoritma K-Means
Apa itu Clustering dan algoritma K-Means?

Clustering adalah proses pembagian objek-objek ke dalam beberapa kelompok (cluster) berdasarkan tingkat kemiripan antara satu objek dengan yang lain.
Beberapa contoh clustering:
- Pengelompokan manusia berdasarkan umur: bayi, balita, anak, remaja, dewasa, tua.
- Pengelompokan customer berdasarkan daya belinya: regular dan premium.
- Pengelompokan makanan berdasarkan kandungan gizinya: biji-bijian, sayuran, buah-buahan, minyak, protein, dan lain-lain.
Banyak algoritma telah dikembangkan untuk melakukan clustering secara otomatis, salah satu yang sangat populer adalah K-Means yang akan menjadi fokus utama latihan ini.
K-means adalah algoritma yang membagi data menjadi sejumlah partisi dengan cara sederhana: mencari kedekatan dari tiap titik pada suatu cluster dengan sejumlah nilai rata-rata atau mean.
Ada dua konsep kunci yang juga menjadi nama asal k-means:
- Jumlah partisi yang diinginkan, diwakili oleh huruf k
- Mencari “jarak” kedekatan tiap titik ke sejumlah nilai rata-rata cluster yang diamati, diwakili oleh means. Ini biasa juga disebut centroid dilambang oleh simbol segitiga.
Fungsi K-means

Fungsi kmeans memerlukan minimal 2 parameter, yaitu:
- x: data yang digunakan, dimana semua isi datanya harus berupa numerik.
- centers: jumlah cluster yang diinginkan.
Mean atau nilai rata-rata disini sering disebut juga dengan centroid pada berbagai literatur data science.
Dan fungsi kmeans ini biasanya disertai dengan pemanggilan function seet.seed(). Ini berguna agar dapat “menyeragamkan” daftar nilai acak yang sama dari kmeans sehingga mendapatkan output yang sama.
#tampilkan hasil k-means
segmentasi
K-means clustering with 5 clusters of sizes 5, 12, 14, 9, 10
Cluster means:
Jenis.Kelamin.1 Umur Profesi.1 Tipe.Residen.1
1 1.40 61.80000 4.200000 1.400000
2 1.75 31.58333 3.916667 1.250000
3 2.00 20.07143 3.571429 1.357143
4 2.00 42.33333 4.000000 1.555556
5 1.70 52.50000 3.800000 1.300000
NilaiBelanjaSetahun
1 8.696132
2 7.330958
3 5.901089
4 8.804791
5 6.018321
Clustering vector:
[1] 1 3 5 5 4 3 1 5 2 2 5 5 1 1 3 2 2 1 2 3 4 5 2 4 2 5 2 4 5 4 3 4
[33] 3 3 4 2 3 4 3 3 3 2 2 3 3 3 5 4 2 5
Within cluster sum of squares by cluster:
[1] 58.21123 174.85164 316.73367 171.67372 108.49735
(between_SS / total_SS = 92.4 %)
Available components:
[1] "cluster" "centers" "totss" "withinss"
[5] "tot.withinss" "betweenss" "size" "iter"
[9] "ifault"
Analisa Hasil Clustering Vektor
segmentasi$cluster
[1] 1 3 5 5 4 3 1 5 2 2 5 5 1 1 3 2 2 1 2 3 4 5 2 4 2 5 2 4 5 4 3 4
[33] 3 3 4 2 3 4 3 3 3 2 2 3 3 3 5 4 2 5
Clustering vektor ini adalah rangkaian vektor yang berisi angka cluster. Dari hasil ini, vektor berisi angka 1 sampai dengan 5, maksimum sesuai dengan jumlah cluster yang diinginkan.
Vektor ini dimulai dari angka 1, yang artinya data pertama dari dataset akan dialokasikan pada nomor cluster 1 Dari gambar juga terlihat isi vektor kedua bernlai 3, ini artinya data kedua dari dataset dialokasikan pada nomor cluster 3, dan seterusnya. Posisi data terakhir (ke-50) memiliki nomor cluster 5.
Analisa Hasil Cluster Size

Tahap berikutnya, akan dianalisa hasil pada bagian pertama.
K-means clustering with 5 clusters of sizes 5, 12, 14, 9, 10
ni artinya dengan k-means nya telah membagi dataset pelanggan dengan 5 klaster, dimana:
Cluster ke-1 memiliki 5 data Cluster ke-2 memiliki 12 data Cluster ke-3 memiliki 14 data Cluster ke-4 memiliki 9 data Cluster ke-5 memiliki 10 data
Dengan jumlah total 50 data, yang juga merupakan jumlah data total pelanggan.
Melihat Data pada Cluster ke-N
Sejauh ini, belum terlihat data hasil klaster. Dapat dilihat klaster ke-N atau istilahnya melihat klaster dengan kondisi tertentu. Misal melihat klaster ke-1, maka dalam R digunakan operator “==” atau equal/sama dengan.
customer[which(customer$cluster == 1),]
Dimana ada 5 data denangan seluruh data dominan berjenis kelamin pria dan umur antara 58 s/d 64 tahun. Penghasilan, profesi, nilai belanja dan tipe residen cukup bervariasi.
Baris kode diatas yaitu dimana memanggil semua kolom di dataset “customer” dengan kondisi dimana setiap rows/baris yang memiliki klaster ke-1.
coba untuk merubah perintah melihat klaster ke-2.
customer[which(customer$cluster == 2),]
Hasil diatas terlihat umur mayoritas sudah masuk usia 20 tahun ke atas dan kebanyakan adalah wiraswasta dan profesional. Dan rata-rata nilai belanja adalah sekitar 5 juta sampai 9 juta.
Analisa Hasil Cluster Means

Klaster means adalah hasil nilai rata-rata atau titik sentral (centroid) dari seluruh titip tiap klaster.
segmentasi$centers
Jenis.Kelamin.1 Umur Profesi.1 Tipe.Residen.1 NilaiBelanjaSetahun
1 1.40 61.80000 4.200000 1.400000 8.696132
2 1.75 31.58333 3.916667 1.250000 7.330958
3 2.00 20.07143 3.571429 1.357143 5.901089
4 2.00 42.33333 4.000000 1.555556 8.804791
5 1.70 52.50000 3.800000 1.300000 6.018321
Apa penjelasan hasil diatas?
Kolom pertama yang berisi angka 1 sampai dengan 5 adalah mewakili nomor cluster. Kolom Jenis.Kelamin.1 menunjukkan nilai rata-rata dari data jenis kelamin yang telah dikonversi menjadi numerik, dengan angka 1 mewakili Pria dan angka 2 mewakili wanita.
pada klaster ke-1 berupa angka 1.40 artinya data bersifat campuran namun cenderung ke Pria (1). sedangkan klaster ke-2 1.75 berifat campuarn namun cenderung ke wanita (2).
Kedua interpretasi angka ini sesuai dengan hasil praktek “Melihat Data pada Cluster-N”.
Kolom Umur adalah representasi dari dataset awal tanpa mengalami konversi. Terlihat untuk klaster ke-1 umur rata-rata adalah 61 tahun, umur 31 tahun untuk klaster ke-2, dan seterusnya. Kolom .1 menunjukkan nilai rata-rata data Profesi untuk tiap klaster yang telah dikonversi menjadi numerik.
Angka 1, 2, 3, 4 dan 5 masing-masing mewakili profesi; Wiraswasta, Pelajar, Professional, Ibu Rumah Tangga dan Mahasiswa.
Terlihat untuk seluruh klaster profesi cenderung ke Professional terutama untuk klaster ke-4.
Kolom Tipe.Residen.1 menunjukkan representasi data Tipe.Residen yang telah dikonversi menjadi numerik dengan angka 1 mewakili Cluster dan 2 mewakili Sector. Ini juga didapatkan dari hasil konversi data menjadi numerik pada sebelumnya. Terlihat untuk seluruh klaster, terlihat data cukup tersebar antara Sector dan Cluster terutama untuk klaster ke-4 dimana nilai kolom ini di angka 1.555.
Terakhir, kolom NilaiBelanjaSetahun cukup signifikan pembagiannya untuk tiap klaster. Dimana klaster ke-1 dan ke-4 memiliki nilai belanja lebih tinggi dibandingkan ketiga klaster lainnya.
Ini mungkin target customer yang bisa lebih disasar melalui marketing campaign, karena klaster ke-1 saat ini hanya berisi 5 data. Cukup kecil proporsinya, dan ingin ditingkatkan
Analisa Hasil Sum of Squares

#Within cluster sum of squares by cluster:
#[1] 58.21123 174.85164 316.73367 171.67372 108.49735
# (between_SS / total_SS = 92.4 %)
Konsep sum of squares (SS) adalah jumlah “jarak kuadrat” perbedaan tiap titik data dengan mean atau centroidnya. SS ini bisa dengan mean atau centroid untuk tiap klaster atau secara keseluruhan data. Sum of squares dalam literatur data science lain sering disebut dengan Sum of Squared Errors (SSE).
Semakin besar nilai SS menyatakan semakin lebarnya perbedaan antar tiap titik data di dalam klaster tersebut.
Berdasarkan konsep tersebut, berikut adalah penjelasan untuk hasil output kmeans di atas:
1.Nilai 58.21123 adalah SS untuk klaster ke-1, 174.85164 adalah SS untuk klaster ke-2, dan seterusnya. Semakin besar nilainya berpotensi semakin baik.
2.total_SS: adalah SS untuk seluruh titik terhadap nilai rata-rata global, bukan untuk per klaster. Nilai ini selalu tetap dan tidak terpengaruh dengan jumlah klaster.
3.between_SS: adalah total_SS dikurangi dengan jumlah nilai SS seluruh klaster. (between_SS / total_SS) adalah rasio antara between_SS dibagi dengan total_SS. Semakin besar persentasenya, umumnya semakin baik.
Ini adalah metrik yang bisa digunakan untuk menjawab seberapa baik jumlah klaster yang dibentuk? Apakah dibagi 2, 5, 10 atau 30?
Teknik penggunaan metrik ini cukup panjang, namun untuk kepentingan praktis kali ini hanya melihat perbedaan nilai ini
kmeans(x = customer[field_yang_digunakan], centers = 2, nstart = 25)
K-means clustering with 2 clusters of sizes 23, 27
Cluster means:
Jenis.Kelamin.1 Umur Profesi.1 Tipe.Residen.1 NilaiBelanjaSetahun
1 1.739130 51.17391 3.913043 1.434783 7.551518
2 1.888889 25.85185 3.777778 1.296296 6.659586
Clustering vector:
[1] 1 2 1 1 1 2 1 1 2 2 1 1 1 1 2 2 2 1 2 2 2 1 2 1 2 1 2 1 1 1 2 1 2 2 1 2 2 1 2 2 2 2 2
[44] 2 2 2 1 1 2 1
Within cluster sum of squares by cluster:
[1] 1492.481 1524.081
(between_SS / total_SS = 72.6 %)
Available components:
[1] "cluster" "centers" "totss" "withinss" "tot.withinss"
[6] "betweenss" "size" "iter" "ifault"
kmeans(x = customer[field_yang_digunakan], centers = 5, nstart = 25)
K-means clustering with 5 clusters of sizes 5, 12, 14, 9, 10
Cluster means:
Jenis.Kelamin.1 Umur Profesi.1 Tipe.Residen.1
1 1.40 61.80000 4.200000 1.400000
2 1.75 31.58333 3.916667 1.250000
3 2.00 20.07143 3.571429 1.357143
4 2.00 42.33333 4.000000 1.555556
5 1.70 52.50000 3.800000 1.300000
NilaiBelanjaSetahun
1 8.696132
2 7.330958
3 5.901089
4 8.804791
5 6.018321
Clustering vector:
[1] 1 3 5 5 4 3 1 5 2 2 5 5 1 1 3 2 2 1 2 3 4 5 2 4 2 5 2 4 5 4 3 4
[33] 3 3 4 2 3 4 3 3 3 2 2 3 3 3 5 4 2 5
Within cluster sum of squares by cluster:
[1] 58.21123 174.85164 316.73367 171.67372 108.49735
(between_SS / total_SS = 92.4 %)
Available components:
[1] "cluster" "centers" "totss" "withinss"
[5] "tot.withinss" "betweenss" "size" "iter"
[9] "ifault"
Penjelasan hasil diatas untuk K=2 total_ss nya 72.6 % sedangakan hasil k=5 total-ss nya 92.4 %.
Terlihat untuk 2 klaster (k=2), SS per klaster lebih besar dibandingkan jika data dibagi menjadi 5 klaster (k=5). Perhatikan juga persentase rasio antara between_SS dan total_SS, dimana k=5 juga lebih besar.
Menentukan Jumlah Cluster Terbaik
Jumlah Cluster dan Sum of Square (SS) dan Grafik Elbow Effect

Dari informasi yang dihasilkan oleh fungsi kmeans, metrick Sum of Squares (SS) atau sering disebut Sum of Squared Errors (SSE) sangat penting untuk dijadikan dasar dalam menentukan jumlah cluster yang paling optimal.
Secara teoritis, berikut adalah beberapa hal yang bisa diaamati dengan SS:
a.Semakin sedikit jumlah cluster yang dihasilkan maka semakin besar nilai SS.
b.Begitu juga sebaliknya, semakin banyak jumlah cluster yang dihasilkan maka semakin kecil nilai SS nya.
c.Karena sifatnya kuadratik, jika terdapat perbedaan yang cukup signifikan antara tiap kombinasi cluster maka perbedaan nilai SS akan semakin besar. Dan seiring bertambahnya jumlah cluster, perbedaan tiap SS ini akan semakin kecil.
Jika dimasukkan ke dalam grafik garis, maka plotting dari total SS untuk tiap cluster berbentuk sebagai berikut.
ggplot(ssdata, aes(x = cluster,y = sse)) +
geom_line(color = "red") +
geom_point() +
theme(panel.background = element_blank(),
axis.line = element_line(colour = "black")) +
labs(title = "Sum of Squares",
subtitle = "Sum of Squares (SS) pada range cluster 1:10",
caption = "Sumber data: DQLab",
x = "Jumlah Cluster",
y = "Within Cluster Sum of Squares") +
geom_text(aes(label = format(round(sse, 2), nsmall = 2)),
hjust = 0.1,
vjust = -0.8,
size = 2.5) +
scale_x_discrete(limits = c(1:jumlah_cluster_max))
Warning: Continuous limits supplied to discrete scale.
Did you mean `limits = factor(...)` or `scale_*_continuous()`?

keterangan data grafik diaatas :
Titik paling kiri adalah jumlah SS untuk 1 jumlah cluster, titik kedua adalah untuk 2 jumlah cluster, dan seterusnya. Perhatikan semakin ke kanan perbedaan jarak antar tiap titik semakin mengecil.
Grafik garis ini memiliki bentuk seperti siku tangan, dan untuk optimal jumlah cluster biasanya dengan mengambil titik sikunya. Pada contoh di atas bisa mengambil 4 atau 5.
Proses pengambilan keputusan berdasarkan plotting siku ini biasa disebut Elbow Effect atau Elbow Method.
Kesimpulan
Dengan memanfaatkan nilai Sum of Squares (SS) atau Sum of Squared Errors (SSE) dapat mengambil keputusan jumlah segmentasi optimal yang digunakan.
Ini dilakukan dengan membuat simulasi iterasi jumlah klaster dari 1 sampai dengan jumlah maksimum yang diinginkan. Pada kasus, menggunakan angka iterasi 1 sampai dengan 10.
Setelah mendapatkan nilai SS dari tiap jumlah klaster, langsung bisa plotting ke grafik garis dan menggunakan elbow method untuk menentukan jumlah klaster optimal.
“Pemaketan” Model K-Means
Pengantar

Referensi hasil konversi dan objek kmeans ini supaya bisa digunakan untuk mengolah data baru dan berguna di bisnis.
Untuk ini tahapannya adalah sebagai berikut:
- Menamakan klaster dengan karakteristik yang lebih mudah dimengerti.
b.Penamaan ini disimpan dalam variabel “Segmen.customer”.
c.Menggabungkan variable Segmen.Pelanggan, Profesi, Jenis.Kelamin, Tipe.Residen, dan Segmentasi ke dalam satu objek bertipe list ke dalam variabel “Identitas.Cluster”.
d.Menyimpan objek Identitas.Cluster dalam bentuk file sehingga dapat digunakan kemudian, ini bisa disebut model.
Menamakan Segmen

Pada bagian ini, dimana akan menamakan segmen sesuai dengan karakteristiknya. Untuk membantu, gambar berikut menunjukkan nilai mean tiap kolom yang digunakan tiap klaster dan juga nilai kolom sebelum konversi.
segmentasi$centers
Jenis.Kelamin.1 Umur Profesi.1 Tipe.Residen.1 NilaiBelanjaSetahun
1 1.40 61.80000 4.200000 1.400000 8.696132
2 1.75 31.58333 3.916667 1.250000 7.330958
3 2.00 20.07143 3.571429 1.357143 5.901089
4 2.00 42.33333 4.000000 1.555556 8.804791
5 1.70 52.50000 3.800000 1.300000 6.018321
Berikut menamakan klaster 1 s/d 5:
Cluster 1 : Diamond Senior Member: alasannya adalah karena umurnya rata-rata adalah 61 tahun dan pembelanjaan di atas 8 juta.
Cluster 2 : Gold Young Professional: alasannya adalah karena umurnya rata-rata adalah 31 tahun, professional dan pembelanjaan cukup besar.
Cluster 3 : Silver Youth Gals: alasannya adalah karena umurnya rata-rata adalah 20, wanita semua, profesinya bercampur antar pelajar dan professional serta pembelanjaan sekitar 6 juta.
Cluster 4 : Diamond Profesional: alasannya adalah karena umurnya rata-rata adalah 42 tahun, pembelanjaan paling tinggi dan semuanya professional.
Cluster 5 : Silver Mid Professional: alasannya adalah karena umurnya rata-rata adalah 52 tahun dan pembelanjaan sekitar 6 juta.
Nama-nama klaster ini bisa dimasukkan ke dalam data frame. Agar setiap klaster memiliki nama-namanya sendiri.
Menggabungkan Referensi

Akan sangat baik jika semuanya digabungkan di satu variabel dengan tipe list, dan ini akan jadi model yang dapat disimpan ke dalam file dan digunakan ketika diperlukan. Layaknya seperti function pada pemrograman atau stored procedure pada SQL.
Identitas.Cluster
$Profesi
$Jenis.Kelamin
$Tipe.Residen
$segmentasi
K-means clustering with 5 clusters of sizes 5, 12, 14, 9, 10
Cluster means:
Jenis.Kelamin.1 Umur Profesi.1 Tipe.Residen.1 NilaiBelanjaSetahun
1 1.40 61.80000 4.200000 1.400000 8.696132
2 1.75 31.58333 3.916667 1.250000 7.330958
3 2.00 20.07143 3.571429 1.357143 5.901089
4 2.00 42.33333 4.000000 1.555556 8.804791
5 1.70 52.50000 3.800000 1.300000 6.018321
Clustering vector:
[1] 1 3 5 5 4 3 1 5 2 2 5 5 1 1 3 2 2 1 2 3 4 5 2 4 2 5 2 4 5 4 3 4 3 3 4 2 3 4 3 3 3 2 2
[44] 3 3 3 5 4 2 5
Within cluster sum of squares by cluster:
[1] 58.21123 174.85164 316.73367 171.67372 108.49735
(between_SS / total_SS = 92.4 %)
Available components:
[1] "cluster" "centers" "totss" "withinss" "tot.withinss"
[6] "betweenss" "size" "iter" "ifault"
$Segmen_customer
$field_yang_digunakan
[1] "Jenis.Kelamin.1" "Umur" "Profesi.1"
[4] "Tipe.Residen.1" "NilaiBelanjaSetahun"
Menyimpan Objek dalam Bentuk File

Objek yang sudah digabungkan pada sebelumnya sudah memiliki semua aset yang diperlukan untuk mengalokasikan data baru ke segmen yang sesuai.
Untuk menyimpan objek ini ke dalam file menggunakan fungsi saveRDS(). File ini kemudian dapat dibuka kembali sebagai objek ke depannya.
Catatan: Hasil file akan disimpan di direktori yang sama dimana project R disimpan di local file.
Kesimpulan

Model ini adalah objek yang bisa digunakan untuk mengolah data baru dan terdiri dari objek kmeans, variable referensi hasil konversi teks ke numerik, dan juga penamaan klaster.
Mengoperasionalkan Model K-Means
Pengantar

bagaimana data baru dapat otomatis membantu tim marketing dan CRM untuk mengidentifikasi segmen mana pelanggan tersebut berada dengan cepat.
Dengan kecepatan identifikasi, maka organisasi atau bisnis dapat dengan cepat bergerak dengan pesan marketing yang efektif dan memenangkan persaingan.
Data Baru

Pada teks sebelumnya, disebutkan data pelanggan baru harus cepat dipetakan ke segmen.
Dengan asumsi tiap data pelanggan baru diinput ke dalam sistem, maka pengolahan adalah per record/baris. Kali ini, akan dibuat data.frame dengan satu data dimana nama-nama kolomnya persis dengan dataset awal.
Membuat Objek Clustering dari File

Maksud disini adalah membuka/membaca file yang telah disimpan simpan sebelumnya dengan sebuah fungsi, dan supaya dikenali di R sebagai objek yang akan digunakan untuk mengolah data baru.
Untuk membuka file tersebut, menggunakan fungsi readRDS().
Perintahnya sangat sederhana, berikut adalah untuk membuka file cluster.rds yang telah disimpan sebelumnya.
Identitas.Cluster
$Profesi
$Jenis.Kelamin
$Tipe.Residen
$segmentasi
K-means clustering with 5 clusters of sizes 5, 12, 14, 9, 10
Cluster means:
Jenis.Kelamin.1 Umur Profesi.1 Tipe.Residen.1 NilaiBelanjaSetahun
1 1.40 61.80000 4.200000 1.400000 8.696132
2 1.75 31.58333 3.916667 1.250000 7.330958
3 2.00 20.07143 3.571429 1.357143 5.901089
4 2.00 42.33333 4.000000 1.555556 8.804791
5 1.70 52.50000 3.800000 1.300000 6.018321
Clustering vector:
[1] 1 3 5 5 4 3 1 5 2 2 5 5 1 1 3 2 2 1 2 3 4 5 2 4 2 5 2 4 5 4 3 4 3 3 4 2 3 4 3 3 3 2 2
[44] 3 3 3 5 4 2 5
Within cluster sum of squares by cluster:
[1] 58.21123 174.85164 316.73367 171.67372 108.49735
(between_SS / total_SS = 92.4 %)
Available components:
[1] "cluster" "centers" "totss" "withinss" "tot.withinss"
[6] "betweenss" "size" "iter" "ifault"
$Segmen_customer
$field_yang_digunakan
[1] "Jenis.Kelamin.1" "Umur" "Profesi.1"
[4] "Tipe.Residen.1" "NilaiBelanjaSetahun"
Merge dengan Data Referensi

Dengan adanya data baru dan objek yang berisi data referensi telah dibaca kembali, bisa menggabungkan data baru ini untuk mendapatkan konversi numerik dari field Jenis.Kelamin, Profesi dan Tipe.Residen.
Tujuannya adalah agar bisa mencari segmen pelanggannya dengan data numerik hasil penggabungan.
Menentukan Cluster

Tahap ini merupakan yang terpenting bagi bisnis; data baru ini masuk ke segmen mana?
Mudah! Yaitu dengan tahapan berikut:
a.mencari jarak kuadrat minimum atau terdekat
b.dari kolom numerik data baru tersebut
c.ke centroid (nilai rata-rata) kolom terkait dari seluruh klaster yang ada
Terlihat lebih jelas ternyata saya masuk dari kolom Nama.Segmen ke angka 3/klaster ke-3 berisi nilai Silver Young Professional.
Kesimpulan

Praktek terakhir menunjukkan bagaimana data pelanggan baru dianalisa oleh model yang dibuat dan mengeluarkan nomor klaster atau segmen.
