Customer Segmentation/Freepik/vectorjuice

Customer Segmentation adalah praktik membagi pelanggan perusahaan ke dalam kelompok-kelompok yang mencerminkan kesamaan di antara pelanggan di setiap kelompok.

Pengelompokkan Customer Segmentation ini umumnya terbagi ke dalam 4 kategori:

demografis
psikografis
perilaku
geografis

Pentingnya melakukan customer Segmentation ini bertujuan untuk memutuskan bagaimana berhubungan dengan pelanggan di setiap segmen untuk memaksimalkan nilai setiap pelanggan dalam berbisnis.

Berikut adalah langkah-langkah dalam melakukan customer segmentation.

Membaca data dengan fungsi read.csv

pelanggan <- read.csv("https://storage.googleapis.com/dqlab-dataset/customer_segments.txt", sep="\t")   
pelanggan

pelanggan[c("Jenis.Kelamin", "Umur", "Profesi","Tipe.Residen")]

Vector untuk Menyimpan Nama Field

a <- c("Jenis.Kelamin", "Umur", "Profesi")
#Tampilan data pelanggan dengan nama kolom sesuai isi vector field_yang_digunakan
pelanggan[a]

Konversi Data dengan data.matrix

pelanggan_matrix <- data.matrix(pelanggan[c("Jenis.Kelamin", "Profesi", "Tipe.Residen")])
pelanggan_matrix

      Jenis.Kelamin Profesi Tipe.Residen
 [1,]             1       5            2
 [2,]             2       3            1
 [3,]             1       4            1
 [4,]             1       4            1
 [5,]             2       5            1
 [6,]             2       4            1
 [7,]             1       5            2
 [8,]             1       4            1
 [9,]             2       4            2
[10,]             1       4            1
[11,]             2       4            2
[12,]             2       4            2
[13,]             2       5            1
[14,]             1       5            1
[15,]             2       5            1
[16,]             1       4            1
[17,]             2       1            1
[18,]             2       1            1
[19,]             2       5            1
[20,]             2       3            2
[21,]             2       5            1
[22,]             2       4            1
[23,]             1       4            1
[24,]             2       5            1
[25,]             2       5            2
[26,]             2       4            1
[27,]             2       5            1
[28,]             2       1            1
[29,]             2       4            1
[30,]             2       1            2
[31,]             2       2            1
[32,]             2       5            2
[33,]             2       2            1
[34,]             2       5            2
[35,]             2       4            2
[36,]             2       5            1
[37,]             2       4            2
[38,]             2       5            2
[39,]             2       4            1
[40,]             2       3            2
[41,]             2       1            1
[42,]             2       5            1
[43,]             2       4            1
[44,]             2       5            1
[45,]             2       4            1
[46,]             2       5            2
[47,]             2       1            1
[48,]             2       5            2
[49,]             2       1            2
[50,]             2       5            2

Menggabungkan Hasil Konversi

pelanggan <- data.frame(pelanggan, pelanggan_matrix)
#Tampilkan kembali data hasil penggabungan
pelanggan

Menormalisasikan Nilai Belanja

pelanggan$NilaiBelanjaSetahun <- pelanggan$NilaiBelanjaSetahun/1000000
pelanggan$NilaiBelanjaSetahun

 [1]  9.497927  2.722700  5.286429  5.204498 10.615206  5.215541  9.837260  5.223569
 [9]  5.993218  5.257448  5.987367  5.941914  9.333168  9.471615 10.365668  5.262521
[17]  5.677762  5.340690 10.884508  2.896845  9.222070  5.298157  5.239290 10.259572
[25] 10.721998  5.269392  9.114159  6.631680  5.271845  5.020976  3.042773 10.663179
[33]  3.047926  9.759822  5.962575  9.678994  5.972787 10.477127  5.257775  2.861855
[41]  6.820976  9.880607  5.268410  9.339737  5.211041 10.099807  6.130724 10.390732
[49]  4.992585 10.569316

Membuat Data Master

untuk melihat nilai kategori dari variabel yang telah dimodifikasi

Profesi

Profesi <- unique(pelanggan[c("Profesi","Profesi.1")])
Profesi

Jenis Kelamin

Jenis.Kelamin <- unique(pelanggan[c("Jenis.Kelamin","Jenis.Kelamin.1")])
Jenis.Kelamin

Tipe Residen

Tipe.Residen <- unique(pelanggan[c("Tipe.Residen","Tipe.Residen.1")])
Tipe.Residen

Dalam melakukan segmentasi customer ini digunakanlah penggunaan analisis clustering, dimana metode yang akan digunakan yaitu K-Means.

Kmeans adalah suatu metode yang mencoba untuk mempartisi dataset menjadi K subkelompok (cluster) non-overlapping yang berbeda yang telah ditentukan sebelumnya di mana setiap titik data hanya dimiliki oleh satu grup.

Adapun algoritma K-Means itu sendiri sebagai berikut:

Tentukan jumlah cluster K
Inisialisasi centroid dengan terlebih dahulu mengacak dataset dan kemudian secara acak memilih K titik data untuk centroid tanpa penggantian.
Lakukan iterasi sampai tidak ada perubahan pada centroid atau penugasan titik data ke cluster tidak berubah.
Hitung jumlah kuadrat jarak antara titik data dan semua centroid.
Tetapkan setiap titik data ke cluster terdekat (centroid).
Hitung centroid untuk cluster dengan mengambil rata-rata dari semua titik data yang dimiliki setiap cluster.

Fungsi kmeans

#Bagian K-Means
set.seed(100)
#fungsi kmeans untuk membentuk 5 cluster dengan 25 skenario random dan simpan ke dalam variable segmentasi
segmentasi <-kmeans(x=pelanggan[c("Jenis.Kelamin.1","Umur","Profesi.1","Tipe.Residen.1","NilaiBelanjaSetahun")], centers=5, nstart=25)
#tampilkan hasil k-means
segmentasi

K-means clustering with 5 clusters of sizes 5, 12, 14, 9, 10

Cluster means:
  Jenis.Kelamin.1     Umur Profesi.1 Tipe.Residen.1 NilaiBelanjaSetahun
1            1.40 61.80000  4.200000       1.400000            8.696132
2            1.75 31.58333  3.916667       1.250000            7.330958
3            2.00 20.07143  3.571429       1.357143            5.901089
4            2.00 42.33333  4.000000       1.555556            8.804791
5            1.70 52.50000  3.800000       1.300000            6.018321

Clustering vector:
 [1] 1 3 5 5 4 3 1 5 2 2 5 5 1 1 3 2 2 1 2 3 4 5 2 4 2 5 2 4 5 4 3 4 3 3 4 2 3 4 3 3 3 2 2
[44] 3 3 3 5 4 2 5

Within cluster sum of squares by cluster:
[1]  58.21123 174.85164 316.73367 171.67372 108.49735
 (between_SS / total_SS =  92.4 %)

Available components:

[1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
[6] "betweenss"    "size"         "iter"         "ifault"

Disini dapat terlihat dari hasil yang dikeluarkan bahwa data pelanggan telah terbagi ke dalam 5 cluster.

Analisa Hasil Clustering Vector

#Penggabungan hasil cluster

segmentasi$cluster

 [1] 1 3 5 5 4 3 1 5 2 2 5 5 1 1 3 2 2 1 2 3 4 5 2 4 2 5 2 4 5 4 3 4 3 3 4 2 3 4 3 3 3 2 2
[44] 3 3 3 5 4 2 5

pelanggan$cluster <- segmentasi$cluster

str(pelanggan)

'data.frame':   50 obs. of  11 variables:
 $ Customer_ID        : chr  "CUST-001" "CUST-002" "CUST-003" "CUST-004" ...
 $ Nama.Pelanggan     : chr  "Budi Anggara" "Shirley Ratuwati" "Agus Cahyono" "Antonius Winarta" ...
 $ Jenis.Kelamin      : chr  "Pria" "Wanita" "Pria" "Pria" ...
 $ Umur               : int  58 14 48 53 41 24 64 52 29 33 ...
 $ Profesi            : chr  "Wiraswasta" "Pelajar" "Professional" "Professional" ...
 $ Tipe.Residen       : chr  "Sector" "Cluster" "Cluster" "Cluster" ...
 $ NilaiBelanjaSetahun: num  9.5 2.72 5.29 5.2 10.62 ...
 $ Jenis.Kelamin.1    : int  1 2 1 1 2 2 1 1 2 1 ...
 $ Profesi.1          : int  5 3 4 4 5 4 5 4 4 4 ...
 $ Tipe.Residen.1     : int  2 1 1 1 1 1 2 1 2 1 ...
 $ cluster            : int  1 3 5 5 4 3 1 5 2 2 ...

pelanggan