Pendahuluan

Segmentasi wilayah merupakan langkah penting dalam strategi bisnis. Dalam industri coffee chain , memahami variasi performa penjualan (Sales), keuntungan (Profit), dan biaya produksi (COGS) antar wilayah sangat penting untuk pengambilan keputusan strategis. Analisis segmentasi berbasis K-Means Clustering dapat membantu mengelompokkan wilayah-wilayah dengan karakteristik serupa, sehingga perusahaan dapat mengidentifikasi wilayah-wilayah yang perlu dilakukan optimasi atau investasi lebih lanjut.

Metode K-Means Clustering dipilih karena kemampuannya dalam mengelompokkan data numerik secara efisien untuk mengetahui pola dan karakteristik di masing-masing wilayah berdasarkan kinerja keuangan mereka (Sales, Profit, dan COGS). Dengan pendekatan ini, hasil segmentasi wilayah yang didapatkan akan memberikan wawasan berharga bagi strategi pemasaran, perencanaan distribusi, dan pengambilan keputusan strategis.

Deskripsi Data

Dataset yang digunakan dalam analisis ini berisi informasi penjualan dan kinerja keuangan yang tercatat untuk berbagai wilayah di Amerika Serikat.

Variabel-variabel yang digunakan dalam analisis ini meliputi:

Tabel Deskripsi Variabel yang Digunakan
Variabel	Tipe	Deskripsi
State	Kategorik	Nama negara bagian di Amerika Serikat sebagai tempat transaksi. Variabel ini berperan sebagai penanda geografis yang akan dikelompokkan berdasarkan karakteristik kinerja keuangannya.
Sales	Numerik	Total nilai penjualan (dalam USD) yang tercatat di masing-masing State.
Profit	Numerik	Keuntungan bersih yang dihasilkan dari penjualan setelah dikurangi dengan biaya produksi (COGS).
COGS	Numerik	Total biaya barang yang terjual, yang mencakup biaya produksi atau pengadaan barang yang dijual (Cost of Goods Sold)

Data ini akan dianalisis menggunakan teknik K-Means Clustering untuk mengelompokkan wilayah berdasarkan kesamaan dari ketiga variabel numerik tersebut. Sebelum dilakukan clustering, data akan terlebih dahulu diproses untuk memastikan bahwa tidak ada nilai yang hilang dan dilakukan standarisasi pada variabel-variabel tersebut untuk memastikan bahwa perbedaan skala antara variabel tidak mempengaruhi hasil analisis.

Rumus Umum K-Means Clustering

Metode K-Means bertujuan untuk meminimalkan jarak total antara data dan pusat klaster mereka. Rumus umum dari fungsi objektif K-Means adalah:

\[ J = \sum_{i=1}^{k} \sum_{x \in C_i} \|x - \mu_i\|^2 \]

Di mana:

$k$ adalah jumlah klaster,
$C_i$ adalah himpunan data dalam klaster ke-$i$,
$x$ adalah titik data dalam klaster,
$\mu_i$ adalah centroid (titik pusat) dari klaster $i$,
$\|x - \mu_i\|^2$ adalah kuadrat jarak Euclidean antara titik data $x$ dan centroid $\mu_i$.

Proses K-Means secara iteratif memperbarui posisi centroid dan pembagian data ke klaster hingga fungsi objektif $J$ mencapai nilai minimum.

Source Code

Library yang Digunakan

library(readxl)
library(dplyr)
library(ggplot2)
library(cluster)
library(factoextra)
library(scales)
library(knitr)
library(tidyr)

Berikut adalah library yang akan digunakan untuk membantu dalam pemrograman ini agar lebih cepat dan efisien.

Library (readxl) digunakan untuk membuka dan membaca file data yang bertype Microsoft Excel xlsx atau xls ke dalam R.
Library (dplyr) digunakan untuk manipulasi data seperti melakukan operasi filter, select, mutate, group_by, dan pengurutan data dengan syntax yang ringan dan efisien.
Library (ggplot2) digunakan untuk visualisasi data yang berbasis Grammar of Graphics. Library ini juga dapat digunakan untuk membuat grafik seperti plot, chart, dll yang estetis dan informatif.
Library (cluster) berfungsi untuk analisis cluster dan mendukung fungsi visualisasi kluster.
Library (factoextra) digunakan untuk mengekstrak dan memvisualisasikan hasil analisis multivariat, seperti PCA dan clustering. Library ini juga mendukung fungsi visual untuk membantu pemilihan jumlah cluster dan visualisasi hasil.
Library (scales) membantu dalam format skala numerik pada grafik. Misalnya mengatur format presentase, mata uang, atau menyempurnakan tampilan skala sumbu pada library ggplot2
Library (knitr) berguna dalam mengatur proses knitting dokumen, menyatukan kode R, output, dan narasi ke dalam dokumen final (HTML, PDF, Word, dll)
Library (tidyr) digunakan untuk merapikan data, khususnya dalam hal mengubah bentuk data format lebar ke panjang.

Import Data

data<-read_excel("Coffee Chain Datasets.xlsx")

Untuk mengimport file data dari Excel ke R dapat menggunakan fungsi read excel dari library (readxl), yang kemudian disimpan dalam variabel “Coffee_Chain_Datasets”.

Kolom Variabel yang Dibutuhkan

selected_data <- data %>%
  select(State, Profit, Sales, COGS)

Memilah kolom variabel yang akan digunakan ke dalam selected_data. Variabel yang akan digunakan ada 4, yaitu State, Profit, sales, dan COGS.

Statistik Deskriptif

summary(selected_data)

Melihat gambaran data secara keseluruhan menggunakan fungsi summary.

Rata-rata Profit, Sales, COGS per State

state_avg <- selected_data %>%
  group_by(State) %>%
  summarise(
    Profit = mean(Profit, na.rm = TRUE),
    Sales = mean(Sales, na.rm = TRUE),
    COGS = mean(COGS, na.rm = TRUE)
)

kable(state_avg, caption="Rata-rata Profit, Sales, dan COGS per State")

Melihat Rata-rata dari profit, Sales, dan COGS tiap State yang ada.

Normalisasi Data untuk Menyamakan Skala

state_scaled <- state_avg %>%
  mutate(across(Profit:COGS, scale))
state_scaled

Normalisasi atau Standarisasi data dilakukan agar variabel numerik dari Profit, Sales, dan COGS memiliki satuan atau skala yang sama. Hal ini penting karena K-Means Clustering sensitif terhadap skala.

Hapus Kolom State untuk Clustering

cluster_data<-state_scaled %>% select (-State)

Menghapus kolom State karena state adalah data kategorik dan tidak dibutuhkan dalam proses clustering.

Jarak Euclidean

Metode jarak yang digunakan dalam analisis ini adalah Jarak Euclidean, yang umum digunakan dalam algoritma K-Means karena mampu mengukur kemiripan antar objek berdasarkan jarak geometris.

Rumus umum jarak Euclidean antara dua titik data $x$ dan $y$ dalam ruang berdimensi $n$ adalah:

\[ d(x, y) = \sqrt{\sum_{i=1}^{n}(x_i - y_i)^2} \]

Di mana:

$x_i$ dan $y_i$ adalah nilai variabel ke-$i$ dari masing-masing titik data $x$ dan $y$,
$n$ adalah jumlah dimensi atau variabel numerik yang dianalisis (dalam hal ini: Profit, Sales, COGS),
$d(x, y)$ menyatakan jarak antara dua titik data tersebut.

Semakin kecil nilai $d(x, y)$, semakin mirip kedua objek; dan sebaliknya, semakin besar nilai jaraknya, semakin berbeda.

clusterdata <- cluster_data
rownames(clusterdata) <- state_scaled$State

distance <- get_dist(clusterdata)

fviz_dist(distance, gradient = list(low = "green", mid = "white", high = "red"))

Fungsi rownames bekerja untuk mengatur nama baris sesuai dengan nama State agar mudah dibaca. Kemudian fungsi get_dist berfungsi untuk menghitung jarak Euclidean antar data yang kemudian hasilnya divisualisasikan menggunakan fungsi fviz_dist.

Elbow method

fviz_nbclust(cluster_data, kmeans, method = "wss") +
  labs(title = "Elbow Method untuk Menentukan k")

Metode Elbow digunakan untuk menentukan jumlah cluster terbaik atau nilai optimal k dengan melihat titik “lekukan” pada grafik.

Proses Clustering

set.seed(123)
kmeans_result <- kmeans(cluster_data, centers = 3, nstart = 25)
kmeans_result

state_clustered <- state_avg %>%
  mutate(Cluster = factor(kmeans_result$cluster))

Proses clustering dimulai dengan menetapkan seed agar hasil bisa direproduksi. Clustering dilakukan dengan 3 cluster Clustering dilakukan dengan mencoba 25 inisialisasi awal untuk memilih hasil terbaik. Hasil terbaik dari proses clustering ditambahkan pada data asli untuk menambahkan label cluster.

Daftar State Tiap Cluster

state_clustered %>%
  arrange(Cluster, State) %>%
  group_by(Cluster) %>%
  summarise(State_List = paste(State, collapse = ", ")) %>%
  kable(caption = "Daftar State dalam Tiap Cluster")

Tabel yang berisi pembagian Kluster dan nama State yang menempati tiap clusternya.

Centroid Tiap Cluster

kable(as.data.frame(kmeans_result$centers), caption = "Koordinat Centroid Tiap Cluster")

Menampilkan koordinat centroid setiap kulster, yang merupakan nilai tengah (mean) dari setiap variabel pada masing-masing cluster.

Validasi Cluster

sil <- silhouette(kmeans_result$cluster, dist(cluster_data))
fviz_silhouette(sil)

Metode siluet digunakan untuk mengevaluasi sejauh mana data cocok dengan cluster. Nilai siluet dekat dengan 1 menunjukkan cluster baik, nilai negatif menunjukkan data salah cluster.

Ringkasan Data Tiap Cluster

state_clustered %>%
  group_by(Cluster) %>%
  summarise(
    Mean_Profit = mean(Profit),
    Mean_Sales = mean(Sales),
    Mean_COGS = mean(COGS),
    Jumlah_State = n()
)

kable(state_clustered, caption="Ringkasan Statistik Tiap Cluster")

Menghitung Rata-rata setiap variabel dalam masing-masing cluster. Kemudian menampilkan jumlah State per cluster dalam bentuk tabel.

Visualisasi Cluster

ggplot(state_clustered, aes(x = Sales, y = Profit, color = Cluster)) +
  geom_point(size = 3) +
  theme_minimal() +
  labs(title = "Visualisasi Cluster Berdasarkan Sales dan Profit")

melted_cluster <- state_clustered %>%
  pivot_longer(cols = Profit:COGS, names_to = "variable", values_to = "value")

ggplot(melted_cluster, aes(x = variable, y = value, fill = Cluster)) +
  geom_boxplot() +
  facet_wrap(~ Cluster) +
  theme_minimal() +
  labs(title = "Distribusi Variabel Keuangan  Tiap Cluster",
       x = "Variabel", y = "Nilai")

fviz_cluster(kmeans_result, data=cluster_data)

Beberapa visualisasi yang ditampilkan:

Scatter Plot memperlihatkan distribusi State berdasarkan Profit dan Sales.
Boxplot distribusi nilai (Sales, Profit, dan COGS tiap cluster) yang berguna untuk memperlihatkan perbedaan pola antar cluster
Visualisasi cluster berdasarkan hasil K-Means. Titik-titik dikelompokkan berdasarkan kesamaan.

Pembahasan

Statistik Deskriptif

##     State               Profit           Sales          COGS       
##  Length:4248        Min.   :-638.0   Min.   : 17   Min.   :  0.00  
##  Class :character   1st Qu.:  17.0   1st Qu.:100   1st Qu.: 43.00  
##  Mode  :character   Median :  40.0   Median :138   Median : 60.00  
##                     Mean   :  61.1   Mean   :193   Mean   : 84.43  
##                     3rd Qu.:  92.0   3rd Qu.:230   3rd Qu.:100.00  
##                     Max.   : 778.0   Max.   :912   Max.   :364.00

Dari Output tersebut dapai diketahui bahwa:

Data penjualan berdasarkan State ada 4248.
Nilai profit terendah adalah -638. Sebanyak 25% data memiliki profit ≤ 17. Setengah data memiliki profit ≤ 40. Rata-rata profit penjualan adalah 61,1. Hal ini menunjukkan adanya indikasi beberapa profit sangat tinggi atau outlier karena mean > median. Sebanyak 75% data memiliki profit ≤ 92. Nilai profit tertinggi adalah 778.

Distribusi profit sedikit miring ke kanan (right-skewed), artinya sebagian besar negara bagian atau State memiliki profit di bawah 100, tetapi ada beberapa yang profitnya sangat tinggi.
Hasil penjualan terendah adalah 17. Sebanyak 25% data memiliki penjualan ≤ 100. Setengah data memiliki penjualan ≤ 138. Rata-rata hasil penjualan adalah 193. Hal ini menunjukkan adanya indikasi beberapa penjualan di beberapa state sangat tinggi atau outlier karena mean > median. Sebanyak 75% data memiliki penjualan ≤ 230. Hasil penjualan tertinggi adalah 912.

Distribusi penjualan juga miring ke kanan, kemungkinan karena beberapa negara bagian atau State dengan penjualan sangat tinggi (outlier).
COGS atau biaya pokok penjualan terendah adalah 0. Sebanyak 25% data memiliki biaya pokok penjualan ≤ 43. Setengah data memiliki biaya pokok penjualan ≤ 60 Rata-rata biaya pokok penjualan adalah 84,43. Hal ini menunjukkan adanya indikasi beberapa biaya pokok penjualan di beberapa state sangat tinggi atau outlier karena mean > median. Sebanyak 75% data memiliki biaya pokok penjualan ≤ 10. Biaya pokok penjualan tertinggi adalah 364.

Distribusi COGS juga mengikuti pola yang sama. Negara bagian atau State dengan COGS tinggi cenderung memiliki penjualan dan profit yang tinggi juga.

Rata-rata Profit, Sales, COGS Tiap State

Rata-rata Profit, Sales, dan COGS Tiap State
State	Profit	Sales	COGS
California	110.364583	336.43056	157.92361
Colorado	67.208333	182.49621	77.28030
Connecticut	45.363095	151.36310	62.32143
Florida	56.990741	173.34722	71.74074
Illinois	142.689815	323.53241	136.49074
Iowa	102.833333	253.47222	108.87963
Louisiana	43.779762	137.86310	55.94048
Massachusetts	114.180556	208.09028	62.95833
Missouri	16.671296	114.10648	52.93519
Nevada	40.212121	227.87500	119.14394
New Hampshire	16.357143	88.61310	33.67857
New Mexico	4.755952	94.59524	45.20238
New York	104.666667	369.02083	183.14583
Ohio	49.875000	159.80093	67.74074
Oklahoma	50.940476	163.47024	66.86905
Oregon	47.117424	154.92045	65.50758
Texas	93.845238	222.67857	93.29762
Utah	26.913194	122.86111	54.74306
Washington	47.520833	162.20833	65.89167
Wisconsin	40.287037	153.09722	63.14815

Hasil output menunjukkan bahwa:

Perbandingan antar state:

Suatu State memiliki Profit tinggi namun Sales rendah, menunjukkan efisiensi tinggi (margin keuntungan besar). Tetapi pada data tidak ada yang menunjukkan hal tersebut.

Jika Sales tinggi tetapi Profit rendah, bisa jadi ada masalah efisiensi atau biaya (misalnya COGS tinggi). Hampir di semua state menunjukkan hal tersebut. Tetapi di Massachusetts menunjukkan COGS rendah dengan profit yang tinggi.

Jika COGS tinggi dan Profit rendah, kemungkinan state tersebut tidak efisien secara operasional. hampir di seluruh State menunjukkan hasil tersebut.

Identifikasi State Unggul:

State dengan rata-rata profit tertinggi adalah Illinois dengan rata-rata profit sebesar $142,689815.

State dengan rata-rata profit terendah adalah New Mexico dengan rata-rata profit hanya sebesar $4,755952.

State dengan rata-rata penjualan tertinggi adalah New York dengan rata-rata penjualan sebesar $369,02083.

State dengan rata-rata penjualan terendah adalah New Hampshire dengan rata-rata penjualan hanya sebesar $88,61310.

State dengan rata-rata COGS tertinggi adalah New York dengan rata-rata COGS sebesar $183,14583.

State dengan rata-rata COGS terendah adalah New Hampshire dengan rata-rata COGS hanya sebesar $33,67857.

Jarak Euclidean

Heatmap ini menunjukkan Jarak Euclidean antar State di Amerika Serikat. Berdasarkan data, warna merah menunjukkan jarak yang besar atau semakin tidak ada kesamaan antar data. Sedangkan warna hijau menunjukkan jarak yang kecil atau semakin menunjukkan adanya kesamaan antar data.

Misalnya

State New York dan California memiliki jarak yang besar karena berwarna merah terang, artinya mereka berbeda secara signifikan dari State lain dan satu sama lain.
State Colorado, Florida, dan New Mexico memiliki jarak yang lebih kecil antar satu sama lain karena berwarna hijau yang menunjukkan adanya kesamaan.

Elbow method

Elbow Method digunakan untuk menentukan jumlah cluster optimal dalam K-Means.

Sumbu X menunjukkan Jumlah Cluster (k)
Sumbu Y menunjukkan Total Within Sum of Squares (WSS) . Semakin kecil, semakin baik pemisahan cluster
Titik Elbow (lekukan) terlihat pada k=3, dimana penurunan WSS mulai melambat perlahan.
Pemilihan 3 Cluster adalah pilihan optimal.

Proses Clustering

## K-means clustering with 3 clusters of sizes 5, 3, 12
## 
## Cluster means:
##       Profit      Sales       COGS
## 1  0.5974461  0.3681134  0.2562354
## 2  1.5411809  1.9468243  1.9578894
## 3 -0.6342311 -0.6400867 -0.5962371
## 
## Clustering vector:
##  [1] 2 1 3 3 2 1 3 1 3 1 3 3 2 3 3 3 1 3 3 3
## 
## Within cluster sum of squares by cluster:
## [1] 4.295863 1.475752 4.432269
##  (between_SS / total_SS =  82.1 %)
## 
## Available components:
## 
## [1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
## [6] "betweenss"    "size"         "iter"         "ifault"

Berdasarkan output, Model membentuk 3 Cluster dengan ukuran:

Cluster 1 : 5 anggota state
Cluster 2 : 3 anggota state
Cluster 3 : 12 anggota state

Nilai Rata-rata tiap kluster:

Cluster 1 : Semua nilai positif (Menunjukkan performa baik)
Cluster 2 : Nilai sangat tinggi (Menunjukkan klaster unggulan)
Cluster 3 : semulai nilai negatif (Menunjukkan performa rendah)

Within Cluster Sum of Squares (WSS):

Total variance yang dijelaskan menunjukkan bahwa sebanyak 82,1% model menjelaskan variasi antar data. Nilai tersebut menunjukkan bahwa model memiliki akurasi clustering yang sangat baik.

Daftar State Tiap Cluster

Daftar State dalam Tiap Cluster
Cluster	State
1	Colorado, Iowa, Massachusetts, Nevada, Texas
2	California, Illinois, New York
3	Connecticut, Florida, Louisiana, Missouri, New Hampshire, New Mexico, Ohio, Oklahoma, Oregon, Utah, Washington, Wisconsin

Dari proses clustering berdasarkan 3 variabel numerik (Profit, sales, dan COGS), didapatkan hasil yang ada pada tabel, dimana Cluster 1 terdapat 5 anggota State, Cluster 2 memiliki 3 anggota State, dan Cluster 3 memiliki 12 anggota State.

Centroid Tiap Kluster

Koordinat Centroid Tiap Cluster
Profit	Sales	COGS
0.5974461	0.3681134	0.2562354
1.5411809	1.9468243	1.9578894
-0.6342311	-0.6400867	-0.5962371

Dari hasil berikut, Cluster 2 memiliki nilai Profit, sales, dan COGS tertinggi. Sedangkan Cluster 3 memiliki nilai Profit, sales, dan COGS terendah. Kemudian Cluster 1 berada di tengah-tengah atau menunjukkan performa menengah.

Validasi Kluster

##   cluster size ave.sil.width
## 1       1    5          0.21
## 2       2    3          0.57
## 3       3   12          0.62

Silhouette Width menunjukkan seberapa cocok suatu objek dengan Clusternya dibandingkan dengan Cluster lain. Nilai rata-rata Cluster 2 sebesar 0,57 menunjukkan hasil cukup baik tetapi Cluster 1 memiliki nilai yang sangat rendah yaitu sebesar 0,21. Hal tersebut menunjukkan State pada Cluster 1 tidak terlalu cocok. Sedangkan Cluster 3 adalah Cluster yang paling stabil.

Ringkasan Data Tiap Klaster

## # A tibble: 3 × 5
##   Cluster Mean_Profit Mean_Sales Mean_COGS Jumlah_State
##   <fct>         <dbl>      <dbl>     <dbl>        <int>
## 1 1              83.7       219.      92.3            5
## 2 2             119.        343.     159.             3
## 3 3              37.2       140.      58.8           12

Ringkasan Statistik Tiap Cluster
State	Profit	Sales	COGS	Cluster
California	110.364583	336.43056	157.92361	2
Colorado	67.208333	182.49621	77.28030	1
Connecticut	45.363095	151.36310	62.32143	3
Florida	56.990741	173.34722	71.74074	3
Illinois	142.689815	323.53241	136.49074	2
Iowa	102.833333	253.47222	108.87963	1
Louisiana	43.779762	137.86310	55.94048	3
Massachusetts	114.180556	208.09028	62.95833	1
Missouri	16.671296	114.10648	52.93519	3
Nevada	40.212121	227.87500	119.14394	1
New Hampshire	16.357143	88.61310	33.67857	3
New Mexico	4.755952	94.59524	45.20238	3
New York	104.666667	369.02083	183.14583	2
Ohio	49.875000	159.80093	67.74074	3
Oklahoma	50.940476	163.47024	66.86905	3
Oregon	47.117424	154.92045	65.50758	3
Texas	93.845238	222.67857	93.29762	1
Utah	26.913194	122.86111	54.74306	3
Washington	47.520833	162.20833	65.89167	3
Wisconsin	40.287037	153.09722	63.14815	3

Interpretasi yang dapat diambil adalah:

High Permonace (Cluster 2) : menunjukkan State dengan performa penjualan terbaik
Medium Performance (Cluster 1) : menunjukkan State dengan performa rata-rata atau menengah.
Low Performance (Cluster 3) : Menunjukkan State dengan performa penjualan terendah.

Visualisasi Klaster

Visualisasi tersebut menunjukkan bahwa:

Cluster 1 (Merah) tersebar di tengah-tengah
Cluster 2 (Hijau) berada di pojok kanan atas yang menunjukkan Sales dan Profit tinggi
Cluster 3 (Biru) berada di ojok kiri bawah yang menunjukkan Sales dan Profit rendah

Visualisasi ini menunjukkan distribusi nilai dari ketiga variabel (Profit, Sales, dan COGS) untuk tiap cluster.

Cluster 1
- Rata-rata Sales dan COGS tampak menengah hingga tinggi, dengan variasi sedang.
- Namun, Profit cenderung lebih rendah atau memiliki outlier negatif, menandakan efisiensi biaya yang kurang baik.
- Cluster ini mewakili state yang memiliki volume penjualan besar, tetapi belum optimal dalam mengelola biaya.Kemungkinan margin keuntungan kecil atau bahkan rugi.
Cluster 2
- Memiliki Profit yang paling tinggi dibanding cluster lainnya.
- Sales dan COGS juga cenderung tinggi, tetapi dengan distribusi yang relatif sempit, menunjukkan konsistensi antar state dalam cluster ini.
- Cluster ini merupakan kelompok ideal dengan penjualan tinggi, biaya besar tapi terkendali, dan tetap mampu menghasilkan laba tinggi. Ini adalah cluster dengan top performer.
Cluster 3
- Sales, COGS, dan Profit semuanya berada di level rendah.
- Penyebaran nilai tidak terlalu ekstrem, mengindikasikan stabilitas meskipun dalam skala kecil.
- Cluster ini merepresentasikan state dengan skala operasi kecil, namun cenderung stabil. Cocok untuk pengembangan atau intervensi strategis untuk meningkatkan skala dan profitabilitas.

Analisis ini bertujuan untuk melihat rata-rata kinerja keuangan di tiap State.

Visualisasi tersebut menyebar cukup baik antara ketiga cluster. Interpretasi dari visualisasi tersebut adalah:

Cluster 1 (Merah) memiliki bentuk yang melebar dan lebih menyebar. Hal tersebut mendukung bahwa silhouette scorenya rendah.
Cluster 2 (Hijau) persebarannya agak sempit dan sangat spesifik.
Cluster 3 (Biru) persebarannya sudah cukup baik.

Kesimpulan

Berdasarkan hasil analisis clustering menggunakan algoritma K-Means terhadap data penjualan coffee chain di berbagai State di Amerika Serikat, diperoleh 3 kelompok cluster yang merepresentasikan karakteristik performa yang berbeda. Cluster 1 mencakup State dengan tingkat sales dan profit yang tinggi, serta nilai COGS yang proporsional, yang menunjukkan efisiensi operasional dan potensi pasar yang kuat. Cluster ini dapat dijadikan benchmark untuk strategi ekspansi ke wilayah lain.

Cluster 2 menampilkan State dengan penjualan yang cukup tinggi namun profit yang tidak terlalu besar, menunjukkan adanya potensi pasar yang belum sepenuhnya dioptimalkan akibat tingginya biaya produksi atau distribusi. Sementara itu, Cluster 3 mencakup wilayah dengan penjualan dan profit yang rendah atau bahkan negatif, yang mengindikasikan perlunya evaluasi menyeluruh terhadap strategi bisnis yang diterapkan di wilayah tersebut.

Nilai silhouette score yang mendekati 0,5 menunjukkan bahwa segmentasi yang dilakukan cukup baik dalam memisahkan karakteristik tiap cluster.

Berdasarkan hasil analisis tersebut, berikut beberapa rekomendasi yang dapat dilakukan untuk meningkatkan performa penjualan coffee chain:

Optimalisasi Wilayah Potensial (Cluster 1): Tingkatkan investasi di State yang tergabung dalam Cluster dengan performa tinggi melalui ekspansi gerai, peningkatan layanan pelanggan, dan peluncuran produk baru. Fokus pada mempertahankan kepuasan pelanggan agar tidak kehilangan pangsa pasar.
Efisiensi Operasional di Wilayah Intermediate (Cluster 2): Lakukan audit terhadap rantai pasokan dan struktur biaya di wilayah dengan sales tinggi namun profit margin rendah. Upayakan efisiensi dalam COGS melalui negosiasi ulang dengan pemasok atau optimalisasi logistik.
Evaluasi dan Restrukturisasi di Wilayah Bermasalah (Cluster 3): Tinjau ulang strategi di negara bagian dengan performa rendah. Pertimbangkan pendekatan localized marketing atau bahkan kemungkinan relokasi atau penutupan gerai yang tidak menguntungkan jika upaya perbaikan tidak menunjukkan hasil dalam jangka waktu tertentu.

Strategi Promosi Berdasarkan Cluster:

Terapkan strategi promosi yang berbeda untuk setiap Cluster Misalnya, di Cluster dengan potensi rendah, promosi agresif dapat membantu menarik pelanggan baru, sedangkan di klaster yang sudah mapan, program loyalitas bisa menjadi fokus utama.

Daftar Pustaka

Agustina, A. (2024). Analisis Cluster Pertama. Diakses dari [https://rpubs.com/agustinaadh/abcdfirst68]
Putra, F. (2023). Analisis Cluster K-Means. Diakses dari [https://rpubs.com/putraf/AnalisisCluster]
Purnamasari, S. M. (2024). Analisis Kelompok (Cluster Analysis). Institut Teknologi Bandung. Diakses dari [https://api.rpubs.com/puspitarini/1111700]
Rany DC. (2023). R Markdown Themes. Diakses dari [https://rpubs.com/ranydc/rmarkdown_themes]

Analisis Cluster Wilayah Berdasarkan Penjualan Coffee Chain di Amerika Serikat

Carmelita Azzahra

2025-05-14

Pendahuluan

Deskripsi Data

Rumus Umum K-Means Clustering

Source Code

Library yang Digunakan

Import Data

Kolom Variabel yang Dibutuhkan

Statistik Deskriptif

Rata-rata Profit, Sales, COGS per State

Normalisasi Data untuk Menyamakan Skala

Hapus Kolom State untuk Clustering

Jarak Euclidean

Elbow method

Proses Clustering

Daftar State Tiap Cluster

Centroid Tiap Cluster

Validasi Cluster

Ringkasan Data Tiap Cluster

Visualisasi Cluster

Pembahasan

Statistik Deskriptif

Rata-rata Profit, Sales, COGS Tiap State

Jarak Euclidean

Elbow method

Proses Clustering

Daftar State Tiap Cluster

Centroid Tiap Kluster

Validasi Kluster

Ringkasan Data Tiap Klaster

Visualisasi Klaster

Kesimpulan

Daftar Pustaka