Library:

> #library(readxl)   
> #library(factoextra)

PENDAHULUAN

Latar Belakang

Pemilihan metode K-Means untuk menganalisis data pengunjung mall dengan variabel seperti gender, usia, pendapatan tahunan, dan pengeluaran didasarkan pada kemampuan metode ini untuk mengelompokkan individu yang memiliki kesamaan dalam karakteristik tertentu. Dalam hal ini, data pengunjung mall mencakup berbagai faktor demografis dan perilaku yang dapat beragam secara signifikan. Dengan menggunakan K-Means, kita dapat membagi pengunjung menjadi beberapa kelompok yang homogen, sehingga mempermudah pemahaman mengenai perilaku konsumsi dan karakteristik pengunjung yang berbeda. Misalnya, pengunjung yang memiliki usia muda, pendapatan rendah, dan pengeluaran terbatas dapat dikelompokkan dalam satu segmen, sementara pengunjung yang lebih tua dengan pendapatan lebih tinggi dan pengeluaran besar dapat dimasukkan dalam segmen lain.

K-Means memberikan keuntungan dalam menyederhanakan data yang kompleks dan besar menjadi informasi yang lebih terstruktur dan mudah dipahami. Dengan hasil klaster yang diperoleh, pihak manajemen mall dapat merancang strategi pemasaran yang lebih tepat sasaran sesuai dengan karakteristik setiap kelompok. Misalnya, promosi yang ditujukan untuk kelompok pengunjung muda dengan pengeluaran terbatas akan berbeda dengan kelompok pengunjung yang lebih tua dan memiliki daya beli lebih tinggi. Dengan demikian, metode K-Means memungkinkan pengelolaan mall untuk membuat keputusan yang lebih cerdas dan berbasis data, meningkatkan efektivitas pemasaran dan pengalaman pengunjung secara keseluruhan.

Analisis Clustering K-Means

Analisis cluster digunakan untuk mencari pola pada data dengan mengelompokkan observasi multivariat ke klaster. Tujuan dari analisis cluster adalah mengoptimalkan kelompok dimana pengamatan atau objek dalam setiap cluster serupa tetapi clusternya berbeda satu sama lain. Ada beberapa pendekatan dalam analisis cluster, salah satunya adalah pendekatan non-hirarki yaitu K-Means. Langkah awal Analisis Cluster K-Means adalah memilih jumlah k cluster. Pemilihan jumlah cluster terbaik pada Analisis Cluster K-Means dapat menggunakan metode Sillhouette Coefficient dan metode Elbow. Nilai Sillhouette Coefficient didapatkan dari perhitungan nilai Sillhouette Index Global dari data ke-i. Sedangkan metode Elbow dihitung melalui presentase perbandingan antara jumlah cluster yang akan membentuk siku pada suatu titik. Nilai cluster membentuk siku yang mengalami penurunan paling besar merupakan nilai cluster optimal (Hilda, dkk 2023). Untuk mendapatkan perbandingannya adalah dengan menghitung sum square error (SSE) dari masing-masing nilai cluster k.

#SOURCE CODE

Library yang Dibutuhkan

> library(readxl)   
> library(factoextra)

import data

> DataUAP <- read_excel("~/Hilya's/Kuliah/semester 7/ANMUL/Data Pengunjung Mall.xlsx")

Data

Variabel yang dipakai terdiri dari: 1. X1: Gender 2. X2: Usia 3. X3: Pendapatan Tahunan Ribuan USD 4. X4: Pengeluaran USD

> library(knitr)
> kable(head(DataUAP), caption = "Tabel Data Pengunjung Mall")
Tabel Data Pengunjung Mall
ID_Pelanggan Gender Usia Pendapatan_Tahunan_Ribuan_USD Pengeluaran_USD
1 1 19 15 39
2 1 21 15 81
3 0 20 16 6
4 0 23 16 77
5 0 31 17 40
6 0 22 17 76

Standarisasi data

> datastand <- scale(DataUAP[, 2:5]) # Asumsikan data numerik di kolom 2-5
> rownames(datastand) <- DataUAP$ID_Pelanggan

Penentuan jumlah cluster optimal

> fviz_nbclust(datastand, kmeans, method = "wss") 

> fviz_nbclust(datastand, kmeans, method = "silhouette")

Clustering K-Means

> set.seed(123) 
> kmeans_result <- kmeans(datastand, centers = 10, nstart = 25)  
> print(kmeans_result)
K-means clustering with 10 clusters of sizes 18, 21, 13, 26, 24, 19, 14, 26, 14, 25

Cluster means:
       Gender        Usia Pendapatan_Tahunan_Ribuan_USD Pengeluaran_USD
1   1.1253282 -0.39889894                     1.0109040      1.25725171
2  -0.8841865 -0.47673565                     0.9704127      1.21852732
3  -0.8841865 -0.95844044                    -1.3275485      1.17483827
4   1.1253282  1.43146563                    -0.4518492     -0.40094633
5   1.1253282 -0.97358385                    -0.7352067      0.41499633
6   1.1253282 -0.02693934                     0.9645919     -1.39367024
7  -0.8841865  0.35333322                     1.2459951     -1.14458219
8  -0.8841865  1.09555717                    -0.2409784     -0.04795866
9  -0.7406497  0.16925224                    -1.3131139     -1.16394438
10 -0.8841865 -0.77958295                    -0.1218364     -0.11927111

Clustering vector:
  1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17  18  19  20 
  5   5   9   3   9   3   9   3   4   3   4   3   9   3   9   5   9   5   4   3 
 21  22  23  24  25  26  27  28  29  30  31  32  33  34  35  36  37  38  39  40 
  5   5   9   5   9   5   9   5   9   3   4   3   4   5   9   3   9   3   9   3 
 41  42  43  44  45  46  47  48  49  50  51  52  53  54  55  56  57  58  59  60 
  8   5   4  10   9   3   8  10  10  10   8   5  10   4   8   4   8   4  10   4 
 61  62  63  64  65  66  67  68  69  70  71  72  73  74  75  76  77  78  79  80 
  4   5   8   8   4   5   8   8   5  10   4   8   8   8   4   5   8   5  10   8 
 81  82  83  84  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99 100 
  4   5   4   8  10   4   8  10  10   8   8   5   4  10  10   5   8  10   4   5 
101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 
 10   8   4   5   4  10   8   4   4   4   4  10  10   5  10  10   8   8   8   8 
121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 
  5  10  10   1  10   2   6   1   4   1   6   1  10   2   6   2   7   1   6   2 
141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 
  7   1  10   2   6   1   6   2   7   1   6   1   7   2   7   2   6   2   6   2 
161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 
  8   2   6   2   6   2   6   2   7   1   6   1   6   1   7   2   6   1   6   1 
181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 
  7   2   6   2   7   1   7   1   7   2   7   2   6   2   7   2   7   1   6   1 

Within cluster sum of squares by cluster:
 [1] 13.652794  8.620733  4.917334 27.723062 24.055056 22.652343 10.392506
 [8] 13.111667 14.069198 12.074992
 (between_SS / total_SS =  81.0 %)

Available components:

[1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
[6] "betweenss"    "size"         "iter"         "ifault"      

menambahkan data hasil clustering ke data asli

> DataUAP$Cluster <- as.factor(kmeans_result$cluster)

Visualisasi Cluster

> fviz_cluster(kmeans_result, data = datastand, geom = "point", ellipse.type = "convex") +
+   labs(title = "Hasil Clustering K-Means", x = "Komponen Utama 1", y = "Komponen Utama 2")

Statistik rata-rata setiap cluster

> cluster_summary <- aggregate(DataUAP[, 2:5], by = list(Cluster = DataUAP$Cluster), mean)
> print(cluster_summary)
   Cluster     Gender     Usia Pendapatan_Tahunan_Ribuan_USD Pengeluaran_USD
1        1 1.00000000 33.27778                      87.11111        82.66667
2        2 0.00000000 32.19048                      86.04762        81.66667
3        3 0.00000000 25.46154                      25.69231        80.53846
4        4 1.00000000 58.84615                      48.69231        39.84615
5        5 1.00000000 25.25000                      41.25000        60.91667
6        6 1.00000000 38.47368                      85.89474        14.21053
7        7 0.00000000 43.78571                      93.28571        20.64286
8        8 0.00000000 54.15385                      54.23077        48.96154
9        9 0.07142857 41.21429                      26.07143        20.14286
10      10 0.00000000 27.96000                      57.36000        47.12000

HASIL DAN PEMBAHASAN

Berdasarkan hasil analisis, jumlah cluster optimum berjumlah 10 cluster, dimana setiap cluster memiliki karakteristik sebagai berikut:

Cluster 1 : Kebanyakan pengunjung pada cluster 1 berjenis kelamin laki-laki berusia sekitar 33 tahun. Rata-rata pendapatan pertahun berkisar 87.000 USD dengan pengeluaran 82.000 USD

Cluster 2 : Kebanyakan pengunjung pada cluster 2 berjenis kelamin perempuan berusia sekitar 32 tahun. Rata-rata pendapatan pertahun berkisar 86.000 USD dengan pengeluaran 81.000 USD

Cluster 3 : Kebanyakan pengunjung pada cluster 3 berjenis kelamin perempuan berusia sekitar 25 tahun. Rata-rata pendapatan pertahun berkisar 25.000 USD dengan pengeluaran 80.000 USD

Cluster 4 : Kebanyakan pengunjung pada cluster 4 berjenis kelamin laki-laki berusia sekitar 58 tahun. Rata-rata pendapatan pertahun berkisar 48.000 USD dengan pengeluaran 39.000 USD

Cluster 5 : Kebanyakan pengunjung pada cluster 1 berjenis kelamin laki-laki berusia sekitar 25 tahun. Rata-rata pendapatan pertahun berkisar 41.000 USD dengan pengeluaran 61.000 USD

Cluster 6 : Kebanyakan pengunjung pada cluster 6 berjenis kelamin laki-laki berusia sekitar 38 tahun. Rata-rata pendapatan pertahun berkisar 85.000 USD dengan pengeluaran 14.000 USD

Cluster 7 : Kebanyakan pengunjung pada cluster 7 berjenis kelamin perempuan berusia sekitar 43 tahun. Rata-rata pendapatan pertahun berkisar 93.000 USD dengan pengeluaran 20.000 USD

Cluster 8 : Kebanyakan pengunjung pada cluster 8 berjenis kelamin perempuan berusia sekitar 54 tahun. Rata-rata pendapatan pertahun berkisar 54.000 USD dengan pengeluaran 48.000 USD

Cluster 9 : Kebanyakan pengunjung pada cluster 9 berjenis kelamin perempuan berusia sekitar 41 tahun. Rata-rata pendapatan pertahun berkisar 26.000 USD dengan pengeluaran 20.000 USD

Cluster 10 : Kebanyakan pengunjung pada cluster 10 berjenis kelamin perempuan berusia sekitar 28 tahun. Rata-rata pendapatan pertahun berkisar 57.000 USD dengan pengeluaran 47.000 USD

DAFTAR PUSTAKA

Ramadhania, H. L., dkk. 2023. Aplikasi Metode Silhouette Coefficient, Metode Elbow, dan Metode Gap Statistic dalam Menentukan K Optimal pada Analisis K-Medoids. Jurnal Siger Matematika.

Rencher, Alvin C. & William F. Christensen. 2012. Method of Multivariate Analysis (3rd ed.). New Jersey: Wiley & Son