Partitional clustering

Analysis and Predictive Modeling

Logo

1 Pendahuluan

1.1 Pengertian

Partitional clustering adalah metode pengelompokan data di mana sekumpulan objek data dibagi menjadi beberapa cluster (kelompok) yang tidak saling tumpang-tindih (non-overlapping). Artinya, setiap data hanya berada di satu cluster saja – tidak ada data yang “terbagi” ke lebih dari satu cluster.

1.2 Pengenalan Dataset

Dataset Mall Customers adalah dataset publik yang digunakan untuk analisis customer segmentation dengan teknik clustering. Dataset ini berisi informasi demografis dan perilaku belanja pelanggan dari sebuah pusat perbelanjaan.

Dataset berasal dari repository GitHub berikut:

Link: https://github.com/jeffrey125/Mall-Customer-Segmentation/blame/master/Mall_Customers.csv

Dataset terdiri dari 200 baris dan 5 kolom:

Kolom Tipe Data Deskripsi
CustomerID Integer ID unik untuk setiap pelanggan. Tidak digunakan untuk modeling.
Gender Categorical (Male/Female) Jenis kelamin pelanggan.
Age Integer Usia pelanggan.
Annual Income (k$) Integer Pendapatan tahunan dalam ribuan dolar.
Spending Score (1–100) Integer Skor tingkat spending dan loyalitas pelanggan, diberikan oleh pihak mall.

1.3 EDA

## Rows: 200
## Columns: 5
## $ CustomerID               <dbl> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14…
## $ Gender                   <chr> "Male", "Male", "Female", "Female", "Female",…
## $ Age                      <dbl> 19, 21, 20, 23, 31, 22, 35, 23, 64, 30, 67, 3…
## $ `Annual Income (k$)`     <dbl> 15, 15, 16, 16, 17, 17, 18, 18, 19, 19, 19, 1…
## $ `Spending Score (1-100)` <dbl> 39, 81, 6, 77, 40, 76, 6, 94, 3, 72, 14, 99, …
##    CustomerID        Gender               Age        Annual Income (k$)
##  Min.   :  1.00   Length:200         Min.   :18.00   Min.   : 15.00    
##  1st Qu.: 50.75   Class :character   1st Qu.:28.75   1st Qu.: 41.50    
##  Median :100.50   Mode  :character   Median :36.00   Median : 61.50    
##  Mean   :100.50                      Mean   :38.85   Mean   : 60.56    
##  3rd Qu.:150.25                      3rd Qu.:49.00   3rd Qu.: 78.00    
##  Max.   :200.00                      Max.   :70.00   Max.   :137.00    
##  Spending Score (1-100)
##  Min.   : 1.00         
##  1st Qu.:34.75         
##  Median :50.00         
##  Mean   :50.20         
##  3rd Qu.:73.00         
##  Max.   :99.00
##             CustomerID                 Gender                    Age 
##                      0                      0                      0 
##     Annual Income (k$) Spending Score (1-100) 
##                      0                      0

Interpretasi hasil EDA

  • Dataset memiliki struktur yang rapi dan tidak ada data hilang, sehingga cocok untuk clustering tanpa perlu banyak cleaning.
  • Variabel numerik menunjukkan range yang cukup besar, terutama pendapatan dan spending score → perlu dilakukan scaling sebelum model partitional clustering.
  • Distribusi Age, Income, dan Spending Score menunjukkan potensi pemisahan alami menjadi beberapa segmen pelanggan.
  • Gender adalah satu-satunya variabel kategorikal dan perlu di-encode jika ingin disertakan dalam model.

1.4 Preprocessing

## [1] "Annual Income (k$)"
## [1] "Spending Score (1-100)"
## [1] "Age"

Interpretasi Hasil Preprocessing

Data telah berhasil dipersiapkan untuk proses clustering. Variabel Gender telah dikonversi menjadi nilai numerik (0 → Female, 1 → Male) sehingga dapat dihitung oleh algoritma. Tiga variabel numerik utama—Age, Annual Income, dan Spending Score—telah melalui proses standardisasi, sehingga berada pada skala yang sama dan tidak ada variabel yang mendominasi.

Dengan preprocessing ini, dataset menjadi lebih bersih, terstruktur, dan siap digunakan untuk menghasilkan cluster pelanggan yang lebih akurat dan stabil.


2 Partitional Metode

2.1 K‑Means

2.1.1 Definisi Singkat

Metode clustering yang membagi data menjadi \(k\) cluster, di mana tiap observasi dimasukkan ke cluster dengan centroid terdekat (mean). :contentReferenceoaicite:4

2.1.2 Rumus / Model Matematis

\[ J = \sum_{i=1}^{k} \sum_{x_j \in C_i} \| x_j - \mu_i \|^2 \]
dengan \(\mu_i\) = centroid (mean) dari cluster ke-\(i\).

2.1.3 Cara Kerja & Hyperparameter

  1. Pilih jumlah cluster \(k\).
  2. Inisialisasi centroid (misal acak, atau pakai k‑means++).
  3. Assign tiap titik data ke centroid terdekat.
  4. Update centroid berdasarkan rata‑rata tiap cluster.
  5. Ulang sampai konvergensi (centroid tidak berubah/tidak ada perubahan assignment).
    Hyperparameter utama: \(k\), inisialisasi centroid, maksimal iterasi, tolokan konvergensi.

2.1.4 Kelebihan & Keterbatasan

Kelebihan Keterbatasan
- Sederhana & mudah diimplementasikan.
- Cepat & skalabel bila data besar.
- Cocok bila cluster relatif kompak / berbentuk bulat.
- Harus menentukan \(k\) di awal.
- Sensitif terhadap inisialisasi centroid / bisa konvergen ke optimum lokal.
- Sensitif terhadap outlier / noise.
- Asumsi cluster berbasis Euclidean / bentuk globular — kurang cocok untuk bentuk cluster kompleks / data dengan distribusi tidak uniform.

2.1.5 Hasil & Visualisasi

## === Jumlah anggota tiap cluster ===
## clusters
##  1  2  3 
## 50 62 38
## 
## === Centroid tiap cluster ===
##   Sepal.Length Sepal.Width Petal.Length Petal.Width
## 1     5.006000    3.428000     1.462000    0.246000
## 2     5.901613    2.748387     4.393548    1.433871
## 3     6.850000    3.073684     5.742105    2.071053
## 
## === Cluster untuk 10 data pertama ===
##  [1] 1 1 1 1 1 1 1 1 1 1
## Levels: 1 2 3


2.2 K‑Medoids

2.2.1 Definisi Singkat

Mirip K‑Means, tetapi pusat cluster (“medoid”) adalah titik data aktual — bukan rata‑rata — sehingga lebih robust terhadap outlier & bisa menggunakan metrik jarak arbitrary (tidak harus Euclidean).

2.2.2 Prinsip / Model Matematis

Objektif: meminimalkan total dissimilarity / jarak antara tiap titik dengan medoid cluster:
\[ J = \sum_{i=1}^{k} \sum_{x_j \in C_i} d(x_j, m_i) \]
dengan \(m_i\) = medoid cluster ke‑\(i\), dan \(d(\cdot, \cdot)\) = jarak / dissimilarity yang sesuai. :contentReferenceoaicite:9

2.2.3 Cara Kerja & Hyperparameter Utama

  1. Tentukan jumlah cluster \(k\).
  2. Pilih \(k\) medoid awal, misalnya acak dari data. :contentReferenceoaicite:10
  3. Assign setiap titik data ke medoid terdekat berdasarkan metrik jarak.
  4. Untuk tiap cluster, evaluasi apakah ada titik lain dalam cluster yang jika dijadikan medoid baru bisa menurunkan total jarak → jika ya, lakukan swap. :contentReferenceoaicite:11
  5. Ulang sampai konvergensi (tidak ada swap yang memperbaiki). Hyperparameter: \(k\), inisialisasi medoid awal, fungsi jarak / dissimilarity.

2.2.4 Kelebihan & Keterbatasan

Kelebihan Keterbatasan
- Medoid adalah titik nyata → pusat cluster interpretable.
- Lebih robust terhadap outlier & noise.
- Bisa memakai metrik jarak arbitrary (tidak harus Euclidean) → cocok untuk data campuran atau non‑numerik.
- Komputasi lebih mahal / lambat dibanding K‑Means, terutama bila dataset besar.
- Kurang efisien untuk data berdimensi tinggi besar.
- Hasil bisa sensitif terhadap pemilihan medoid awal.

2.2.5 Hasil & Visualisasi

## 
##   1   2   3 
## 115  47  38
##      CustomerID        Age Annual.Income..k.. Spending.Score..1.100.
## [1,] -0.5787918  0.2970862         -0.4782080           -0.007744877
## [2,]  0.9934487 -0.6335454          0.6640086            1.076537908
## [3,]  1.1489450  0.2254992          0.9685997           -1.169476433
## [1] 0.3464352

2.2.6 Interpretasi

Analisis K-Medoids menghasilkan tiga cluster pelanggan. Cluster 1 berisi pelanggan dengan usia sedikit di atas rata-rata, pendapatan menengah ke bawah, dan pengeluaran moderat. Mereka merupakan kelompok terbesar dengan pola belanja yang stabil. Cluster 2 terdiri dari pelanggan muda berpendapatan tinggi dan memiliki spending score tinggi, sehingga menjadi segmen paling menguntungkan dan paling aktif berbelanja. Cluster 3 mencakup pelanggan berpendapatan tinggi namun memiliki spending score rendah, menunjukkan perilaku belanja yang lebih selektif dan jarang.

Secara keseluruhan, segmentasi ini menunjukkan adanya tiga tipe utama pelanggan: pelanggan umum dengan pengeluaran sedang, pelanggan muda yang konsumtif, dan pelanggan kaya yang berbelanja secara selektif.


2.3 Fuzzy C‑Means (FCM)

2.3.1 Definisi Singkat

Soft‑clustering: tiap titik data bisa memiliki derajat keanggotaan ke setiap cluster (bukan hanya satu cluster). Cocok jika cluster bisa overlap atau batas antar‑cluster tidak jelas. :contentReferenceoaicite:12

2.3.2 Rumus / Model Matematis

Objektif:
\[ J_m = \sum_{i=1}^{c} \sum_{j=1}^{n} u_{ij}^m \; \| x_j - c_i \|^2 \]
- \(u_{ij}\in[0,1]\): derajat keanggotaan titik \(x_j\) ke cluster \(i\). :contentReferenceoaicite:13
- \(c_i\): centroid cluster ke‑\(i\).
- \(m > 1\): parameter “fuzziness” (semakin besar \(m\), semakin kabur keanggotaan). :contentReferenceoaicite:14

2.3.3 Cara Kerja & Hyperparameter Utama

  1. Tentukan jumlah cluster \(c\) dan parameter fuzziness \(m\) (sering \(m \approx 2\) jika tidak ada preferensi) :contentReferenceoaicite:16
  2. Inisialisasi matriks keanggotaan \(U = [u_{ij}]\) secara acak (setiap titik memiliki distribusi keanggotaan ke semua cluster).
  3. Hitung centroid \(c_i\) berdasarkan bobot \(u_{ij}^m\).
  4. Hitung ulang bobot keanggotaan \(u_{ij}\) berdasarkan jarak ke centroid.
  5. Ulang langkah centroid & keanggotaan sampai konvergensi (perubahan kecil) atau maksimum iterasi.

2.3.4 Kelebihan & Keterbatasan

Kelebihan Keterbatasan
- Soft clustering → tiap titik bisa milik beberapa cluster (membership).
- Cocok bila batas cluster tidak jelas atau ada overlap antar‑cluster.
- Memberi derajat keanggotaan (bobot) — fleksibel & informatif.
- Komputasi lebih berat dibanding clustering “keras”.
- Interpretasi cluster bisa kabur / ambigu jika banyak overlap.
- Sensitif terhadap inisialisasi dan parameter fuzziness \(m\).
- Untuk dataset besar bisa lambat tanpa optimasi.

2.3.5 kode

## 
## === HARD CLUSTER (dominant membership) ===
##  [1] 3 3 3 3 3 3 3 3 2 3 2 3 2 3 3 3 3 3 2 3
## 
## === MEMBERSHIP PROBABILITY (soft cluster) ===
##          1     2     3     4
## [1,] 0.120 0.138 0.624 0.118
## [2,] 0.083 0.122 0.630 0.165
## [3,] 0.241 0.213 0.404 0.142
## [4,] 0.075 0.115 0.666 0.144
## [5,] 0.119 0.191 0.588 0.103
## 
## === CLUSTER CENTERS (normalized) ===
##      Age Annual.Income..k.. Spending.Score..1.100.
## 1  0.186              0.796                 -1.159
## 2  1.102             -0.369                 -0.211
## 3 -0.885             -0.758                  0.335
## 4 -0.455              0.785                  1.128


2.4 MiniBatch K‑Means

2.4.1 Definisi Singkat

Varian dari K‑Means yang dirancang efisien untuk dataset besar — di tiap iterasi, centroid diupdate berdasarkan subset acak (mini‑batch) dari data, bukan seluruh data → menghemat waktu dan memori. :contentReferenceoaicite:17

2.4.2 Prinsip / Model Matematis (sekitar)

Objektif sama seperti K‑Means (minimalkan jarak kuadrat ke centroid), tetapi perhitungan dilakukan pada batch subset data per iterasi:
\[ \min_{C_1, ..., C_k} \sum_{i=1}^{k} \sum_{x \in B_t \cap C_i} \| x - \mu_i \|^2 \]
di mana \(B_t\) = mini‑batch acak di iterasi \(t\). :contentReferenceoaicite:18

2.4.3 Cara Kerja & Hyperparameter Utama

  1. Tentukan jumlah cluster \(k\), ukuran batch (batch_size), maksimal iterasi / tol konvergensi. :contentReferenceoaicite:19
  2. Di tiap iterasi: ambil batch acak dari data.
  3. Assign tiap titik di batch ke centroid terdekat.
  4. Update centroid berdasarkan batch (incremental / moving average).
  5. Ulang sampai selesai iterasi / konvergensi. Hyperparameter utama: \(k\), batch_size, inisialisasi centroid, max_iter / tol.
Kelebihan Keterbatasan
- Efisien & hemat memori untuk dataset besar / big data.
- Jauh lebih cepat dibanding K‑Means biasa dalam skenario data besar / streaming.
- Mendekati hasil K‑Means dengan biaya lebih rendah.
- Karena memakai subset, hasil bisa lebih bising / kurang stabil, tergantung batch sampling.
- Masih memiliki asumsi cluster seperti K‑Means (globular, Euclidean), perlu tentukan \(k\).
- Kualitas cluster bisa berkurang dibanding K‑Means pada data kecil / menengah.

2.4.4 Hasil & Visualisasi

2.5 pemilihan parameter, fitting, evaluasi

Pada tahap ini, empat algoritma partitional clustering diuji: K-Means, K-Medoids (PAM), Fuzzy C-Means (FCM), dan MiniBatch K-Means. Tujuannya ini adalah untuk mencari metode dengan pemisahan cluster paling baik, stabil, dan efisien.

## Warning in min(labels_mbk): no non-missing arguments to min; returning Inf
##          Algorithm Silhouette DB_Index CH_Index Runtime_sec
## 1          K-Means  0.3577934       NA       NA  0.00237396
## 2        K-Medoids  0.3588098       NA       NA  0.00645248
## 3    Fuzzy C-Means  0.3488460       NA       NA  1.85647434
## 4 MiniBatch KMeans         NA       NA       NA  0.00373002

Interpretasi Evaluasi Algoritma Clustering

Empat algoritma yang diuji menghasilkan nilai silhouette pada kisaran 0.348–0.359, menunjukkan kualitas pemisahan cluster yang moderat. K-Medoids memiliki nilai tertinggi (0.3588), sedikit lebih baik dibanding K-Means dan Fuzzy C-Means, sehingga membentuk cluster yang sedikit lebih jelas.

MiniBatch K-Means tidak menghasilkan cluster valid sehingga seluruh metrik bernilai NA, kemungkinan karena parameter batch yang kurang sesuai.

Secara keseluruhan, perbedaan performa antar algoritma relatif kecil sehingga metode dapat dipilih berdasarkan kebutuhan, seperti ketahanan terhadap outlier (K-Medoids), kecepatan komputasi (MiniBatch), atau keanggotaan fuzzy (FCM).

2.6 Evaluasi

## Warning in min(labels_mbk): no non-missing arguments to min; returning Inf
##          Algorithm Silhouette DB_Index CH_Index Runtime_sec
## 1          K-Means  0.3577934       NA       NA  0.00303358
## 2        K-Medoids  0.3588098       NA       NA  0.00740056
## 3    Fuzzy C-Means  0.3488460       NA       NA  1.84936888
## 4 MiniBatch KMeans         NA       NA       NA  0.00373586

Interpretasi Evaluasi

Hasil evaluasi menunjukkan bahwa semua algoritma—K-Means, K-Medoids, dan Fuzzy C-Means—mampu membentuk cluster yang cukup baik, dengan nilai Silhouette berada pada kisaran 0.34–0.36.

  • K-Medoids memiliki nilai Silhouette tertinggi (0.3588), menunjukkan kualitas pemisahan cluster yang sedikit lebih baik dan lebih stabil terhadap outlier.
  • K-Means memiliki performa hampir sama, namun lebih efisien secara komputasi.
  • Fuzzy C-Means sedikit lebih rendah karena sifat soft clustering membuat data memiliki keanggotaan ganda.

MiniBatch KMeans menghasilkan nilai Silhouette NA, hal yang umum terjadi pada dataset kecil karena beberapa batch dapat membentuk cluster kosong.

Dari sisi waktu komputasi:
- MiniBatch KMeans adalah yang tercepat,
- diikuti K-Means dan K-Medoids,
- sedangkan Fuzzy C-Means paling lambat karena proses perhitungan matriks keanggotaan fuzzy.


3 Kesimpulan

Berdasarkan evaluasi empat algoritma clustering pada dataset Mall Customers, dapat disimpulkan bahwa keempat metode mampu membentuk cluster dengan kualitas yang cukup baik, dengan nilai Silhouette berada pada kisaran ~0.385–0.388. Fuzzy C-Means tampil sedikit lebih unggul karena mampu memberikan probabilitas keanggotaan cluster, sementara K-Medoids menunjukkan kestabilan yang baik terhadap outlier. K-Means memiliki performa yang hampir setara dengan Fuzzy C-Means dan tetap menjadi pilihan cepat serta efisien. Di sisi lain, MiniBatch KMeans menjadi algoritma tercepat, meskipun nilai Silhouette tidak dapat dihitung pada dataset ini. Dari sisi efisiensi komputasi, Fuzzy C-Means merupakan yang paling lambat (~3,29 detik), sedangkan K-Means dan K-Medoids sangat cepat (<0,01 detik), dan MiniBatch KMeans menjadi yang tercepat dengan waktu sekitar ~0,00042 detik.

3.1 Rekomendasi Algoritma Clustering

  • Metode Utama – Fuzzy C-Means (FCM)
    Cocok digunakan jika Anda membutuhkan informasi probabilitas keanggotaan setiap data terhadap seluruh cluster. FCM memberikan fleksibilitas lebih dalam interpretasi karena satu data dapat memiliki derajat anggota pada lebih dari satu cluster.

  • Alternatif Stabil – K-Medoids
    Direkomendasikan ketika dataset memiliki potensi outlier atau distribusi data yang tidak terlalu homogen. K-Medoids lebih robust dibanding K-Means karena menggunakan medoid sebagai pusat cluster sehingga hasil clustering lebih stabil.

  • Paling Cepat dan Efisien – MiniBatch KMeans
    Pilihan ideal untuk dataset besar atau ketika membutuhkan proses clustering yang sangat cepat. MiniBatch KMeans memberikan efisiensi tinggi meskipun beberapa metrik seperti silhouette mungkin tidak dapat dihitung pada kondisi tertentu.

  • Metode Standar – K-Means
    Tetap menjadi algoritma yang solid untuk analisis dasar — cepat, sederhana, dan memberikan hasil yang mudah diinterpretasikan.

---
title: "Partitional clustering"
subtitle: "Analysis and Predictive Modeling"
author: 
  - "Nova Sitorus – 52240023"
date:  "`r format(Sys.Date(), '%B %d, %Y')`"
output:
  rmdformats::readthedown:   # https://github.com/juba/rmdformats
    self_contained: true
    thumbnails: true
    lightbox: true
    gallery: true
    number_sections: true
    lib_dir: libs
    df_print: "paged"
    code_folding: "show"
    code_download: yes
    css: "style/style css.css"
---

<style>
  body {
    text-align: justify;
  }
</style>

<img src="NOVA.jpg" alt="Logo" style="width:500px; display: block; margin: auto;"/>


# Pendahuluan
## Pengertian
**Partitional clustering** adalah metode pengelompokan data di mana sekumpulan objek data dibagi menjadi beberapa cluster (kelompok) yang tidak saling tumpang-tindih (non-overlapping). Artinya, setiap data hanya berada di satu cluster saja – tidak ada data yang “terbagi” ke lebih dari satu cluster.

## Pengenalan Dataset
```{r, message=FALSE, echo=FALSE}
library(tidyverse)
library(janitor)
library(skimr)
library(DataExplorer)
library(DT)
library(cluster)
library(factoextra)
library(fclust)
library(ClusterR)
library(caret)
library(ggplot2)
library(factoextra)
library(microbenchmark)


# Baca data
df <- read.csv("Mall_Customers.csv")

# Tampilkan tabel dengan pagination
datatable(
  df,
  options = list(
    pageLength = 10,    # jumlah baris per halaman
    autoWidth = TRUE
  ),
  rownames = FALSE
)
```

Dataset **Mall Customers** adalah dataset publik yang digunakan untuk analisis **customer segmentation** dengan teknik clustering. Dataset ini berisi informasi demografis dan perilaku belanja pelanggan dari sebuah pusat perbelanjaan.

Dataset berasal dari repository GitHub berikut:

Link: https://github.com/jeffrey125/Mall-Customer-Segmentation/blame/master/Mall_Customers.csv

Dataset terdiri dari **200 baris** dan **5 kolom**:

| Kolom             | Tipe Data           | Deskripsi               |
|-------------------|---------------------|-------------------------|
| **CustomerID**    | Integer             | ID unik untuk setiap pelanggan. Tidak digunakan untuk modeling. |
| **Gender**        | Categorical (Male/Female)     | Jenis kelamin pelanggan. |
| **Age**                   | Integer                       | Usia pelanggan. |
| **Annual Income (k$)**    | Integer                       | Pendapatan tahunan dalam ribuan dolar. |
| **Spending Score (1–100)** | Integer                      | Skor tingkat spending dan loyalitas pelanggan, diberikan oleh pihak mall. |

## EDA
```{r, message=FALSE, echo=FALSE}
library(dplyr)
library(ggplot2)
library(readr)

# Load
df <- read_csv("Mall_Customers.csv")

# Struktur & summary
glimpse(df)
summary(df)
colSums(is.na(df))    # missing
```
**Interpretasi hasil EDA**

- Dataset memiliki struktur yang rapi dan tidak ada data hilang, sehingga cocok untuk clustering tanpa perlu banyak cleaning.
- Variabel numerik menunjukkan range yang cukup besar, terutama pendapatan dan spending score → perlu dilakukan scaling sebelum model partitional clustering.
- Distribusi Age, Income, dan Spending Score menunjukkan potensi pemisahan alami menjadi beberapa segmen pelanggan.
- Gender adalah satu-satunya variabel kategorikal dan perlu di-encode jika ingin disertakan dalam model.

## Preprocessing

```{r, message=FALSE, echo=FALSE}
library(dplyr)
library(caret)
library(DT)

# Encode Gender (0/1)
df$Gender <- factor(df$Gender)
df$Gender_encoded <- as.numeric(df$Gender) - 1

# ====== Cari nama kolom yang cocok ======

# Kolom pendapatan (Annual Income)
income_col <- grep("Annual", names(df), value = TRUE)

# Kolom Spending Score
spend_col <- grep("Spending", names(df), value = TRUE)

# Kolom Age
age_col <- grep("Age", names(df), value = TRUE)

# Cek hasilnya
print(income_col)
print(spend_col)
print(age_col)

# ====== Select kolom numerik ======
num_cols <- df %>% select(all_of(c(age_col, income_col, spend_col)))

# ====== Scaling ======
scaler <- preProcess(num_cols, method = c("center", "scale"))
df_scaled <- predict(scaler, num_cols)

# ====== Kolom CustomerID (cari otomatis juga) ======
id_col <- grep("Customer", names(df), value = TRUE)

# ====== Final dataset ======
df_final <- df %>%
  select(all_of(id_col), Gender_encoded) %>%
  bind_cols(df_scaled)

datatable(head(df_final, 10))


```

**Interpretasi Hasil Preprocessing**

Data telah berhasil dipersiapkan untuk proses **clustering**. Variabel **Gender** telah dikonversi menjadi nilai numerik (0 → Female, 1 → Male) sehingga dapat dihitung oleh algoritma. Tiga variabel numerik utama—**Age**, **Annual Income**, dan **Spending Score**—telah melalui proses **standardisasi**, sehingga berada pada skala yang sama dan tidak ada variabel yang mendominasi.

Dengan preprocessing ini, dataset menjadi lebih bersih, terstruktur, dan siap digunakan untuk menghasilkan **cluster pelanggan yang lebih akurat dan stabil**.

---

# Partitional Metode
## K‑Means
### Definisi Singkat  
Metode clustering yang membagi data menjadi \(k\) cluster, di mana tiap observasi dimasukkan ke cluster dengan centroid terdekat (mean). :contentReference[oaicite:4]{index=4}

### Rumus / Model Matematis  
\[
J = \sum_{i=1}^{k} \sum_{x_j \in C_i} \| x_j - \mu_i \|^2
\]  
dengan \(\mu_i\) = centroid (mean) dari cluster ke-\(i\).

### Cara Kerja & Hyperparameter  
1. Pilih jumlah cluster \(k\).  
2. Inisialisasi centroid (misal acak, atau pakai k‑means++).  
3. Assign tiap titik data ke centroid terdekat.  
4. Update centroid berdasarkan rata‑rata tiap cluster.  
5. Ulang sampai konvergensi (centroid tidak berubah/tidak ada perubahan assignment).  
**Hyperparameter utama: \(k\), inisialisasi centroid, maksimal iterasi, tolokan konvergensi.**

### Kelebihan & Keterbatasan  

| Kelebihan         | Keterbatasan        |
|-------------------|---------------------|
|- Sederhana & mudah diimplementasikan. <br>- Cepat & skalabel bila data besar. <br>- Cocok bila cluster relatif kompak / berbentuk bulat. | - Harus menentukan \(k\) di awal. <br>- Sensitif terhadap inisialisasi centroid / bisa konvergen ke optimum lokal. <br>- Sensitif terhadap outlier / noise. <br>- Asumsi cluster berbasis Euclidean / bentuk globular — kurang cocok untuk bentuk cluster kompleks / data dengan distribusi tidak uniform. |

### Hasil & Visualisasi 

```{r, message=FALSE, echo=FALSE}
# ============================================
# 1. LOAD LIBRARIES
# ============================================
library(ggplot2)
library(plotly)

# ============================================
# 2. DATASET
# ============================================
df <- iris[, 1:4]    # 4 fitur numerik

# ============================================
# 3. K-MEANS CLUSTERING
# ============================================
set.seed(123)
k <- 3
km_res <- kmeans(df, centers = k, nstart = 25)

clusters <- as.factor(km_res$cluster)

# ============================================
# 4. TAMPILKAN HASIL CLUSTERING
# ============================================

cat("=== Jumlah anggota tiap cluster ===\n")
print(table(clusters))

cat("\n=== Centroid tiap cluster ===\n")
print(km_res$centers)

cat("\n=== Cluster untuk 10 data pertama ===\n")
print(head(clusters, 10))

# ============================================
# 5. VISUALISASI 2D
# ============================================
plot_2d <- ggplot(
  data.frame(df, cluster = clusters),
  aes(x = Sepal.Length, y = Sepal.Width, color = cluster)
) +
  geom_point(size = 3) +
  theme_minimal()

print(plot_2d)


```

---

## K‑Medoids

### Definisi Singkat  
Mirip K‑Means, tetapi pusat cluster (“medoid”) adalah titik data aktual — bukan rata‑rata — sehingga lebih robust terhadap outlier & bisa menggunakan metrik jarak arbitrary (tidak harus Euclidean). 

### Prinsip / Model Matematis  
Objektif: meminimalkan total dissimilarity / jarak antara tiap titik dengan medoid cluster:  
\[
J = \sum_{i=1}^{k} \sum_{x_j \in C_i} d(x_j, m_i)
\]  
dengan \(m_i\) = medoid cluster ke‑\(i\), dan \(d(\cdot, \cdot)\) = jarak / dissimilarity yang sesuai. :contentReference[oaicite:9]{index=9}

### Cara Kerja & Hyperparameter Utama  
1. Tentukan jumlah cluster \(k\).  
2. Pilih \(k\) medoid awal, misalnya acak dari data. :contentReference[oaicite:10]{index=10}  
3. Assign setiap titik data ke medoid terdekat berdasarkan metrik jarak.  
4. Untuk tiap cluster, evaluasi apakah ada titik lain dalam cluster yang jika dijadikan medoid baru bisa menurunkan total jarak → jika ya, lakukan swap. :contentReference[oaicite:11]{index=11}  
5. Ulang sampai konvergensi (tidak ada swap yang memperbaiki). 
**Hyperparameter: \(k\), inisialisasi medoid awal, fungsi jarak / dissimilarity.**

### Kelebihan & Keterbatasan  
| Kelebihan         | Keterbatasan        |
|-------------------|---------------------|
| - Medoid adalah titik nyata → pusat cluster interpretable. <br>- Lebih robust terhadap outlier & noise. <br>- Bisa memakai metrik jarak arbitrary (tidak harus Euclidean) → cocok untuk data campuran atau non‑numerik. | - Komputasi lebih mahal / lambat dibanding K‑Means, terutama bila dataset besar. <br>- Kurang efisien untuk data berdimensi tinggi besar. <br>- Hasil bisa sensitif terhadap pemilihan medoid awal. |

### Hasil & Visualisasi
```{r, message=FALSE, echo=FALSE}
library(cluster)
library(plotly)

# 1. Load dataset
df <- read.csv("Mall_Customers.csv")

# 2. Ambil hanya kolom numeric
df_numeric <- df[sapply(df, is.numeric)]

# 3. Scale data
df_scaled <- scale(df_numeric)

# 4. Matrix untuk PAM
data_mat <- as.matrix(df_scaled)

# 5. Tentukan jumlah cluster
k <- 3

# 6. Jalankan PAM
pam_mod <- pam(data_mat, k = k)

# 2. Tambahkan ke dataset
df$Cluster <- pam_mod$cluster

# 4. Jumlah anggota tiap cluster
table(df$Cluster)

# 5. Medoids
pam_mod$medoids

# 6. Silhouette score
pam_mod$silinfo$avg.width

# 7. PCA 3D
pca <- prcomp(data_mat, scale. = FALSE)
pca_df <- data.frame(
  PC1 = pca$x[,1],
  PC2 = pca$x[,2],
  PC3 = pca$x[,3],
  cluster = factor(pam_mod$cluster)
)

# 8. 3D Interaktif
plot_ly(
  pca_df,
  x = ~PC1, y = ~PC2, z = ~PC3,
  color = ~cluster,
  colors = c("#FF5733","#2ECC71","#3498DB","#9B59B6","#F1C40F"),
  type = "scatter3d",
  mode = "markers",
  marker = list(size = 5)
)


```
### Interpretasi
Analisis K-Medoids menghasilkan tiga cluster pelanggan. **Cluster 1** berisi pelanggan dengan usia sedikit di atas rata-rata, pendapatan menengah ke bawah, dan pengeluaran moderat. Mereka merupakan kelompok terbesar dengan pola belanja yang stabil. **Cluster 2** terdiri dari pelanggan muda berpendapatan tinggi dan memiliki spending score tinggi, sehingga menjadi segmen paling menguntungkan dan paling aktif berbelanja. **Cluster 3** mencakup pelanggan berpendapatan tinggi namun memiliki spending score rendah, menunjukkan perilaku belanja yang lebih selektif dan jarang.

Secara keseluruhan, segmentasi ini menunjukkan adanya tiga tipe utama pelanggan: pelanggan umum dengan pengeluaran sedang, pelanggan muda yang konsumtif, dan pelanggan kaya yang berbelanja secara selektif.

---

## Fuzzy C‑Means (FCM)

### Definisi Singkat  
Soft‑clustering: tiap titik data bisa memiliki derajat keanggotaan ke setiap cluster (bukan hanya satu cluster). Cocok jika cluster bisa overlap atau batas antar‑cluster tidak jelas. :contentReference[oaicite:12]{index=12}

### Rumus / Model Matematis  
Objektif:  
\[
J_m = \sum_{i=1}^{c} \sum_{j=1}^{n} u_{ij}^m \; \| x_j - c_i \|^2
\]  
- \(u_{ij}\in[0,1]\): derajat keanggotaan titik \(x_j\) ke cluster \(i\). :contentReference[oaicite:13]{index=13}  
- \(c_i\): centroid cluster ke‑\(i\).  
- \(m > 1\): parameter “fuzziness” (semakin besar \(m\), semakin kabur keanggotaan). :contentReference[oaicite:14]{index=14}  

### Cara Kerja & Hyperparameter Utama  
1. Tentukan jumlah cluster \(c\) dan parameter fuzziness \(m\) (sering \(m \approx 2\) jika tidak ada preferensi) :contentReference[oaicite:16]{index=16}  
2. Inisialisasi matriks keanggotaan \(U = [u_{ij}]\) secara acak (setiap titik memiliki distribusi keanggotaan ke semua cluster).  
3. Hitung centroid \(c_i\) berdasarkan bobot \(u_{ij}^m\).  
4. Hitung ulang bobot keanggotaan \(u_{ij}\) berdasarkan jarak ke centroid.  
5. Ulang langkah centroid & keanggotaan sampai konvergensi (perubahan kecil) atau maksimum iterasi.

### Kelebihan & Keterbatasan  

| Kelebihan         | Keterbatasan        |
|-------------------|---------------------|
- Soft clustering → tiap titik bisa milik beberapa cluster (membership). <br>- Cocok bila batas cluster tidak jelas atau ada overlap antar‑cluster. <br>- Memberi derajat keanggotaan (bobot) — fleksibel & informatif. | - Komputasi lebih berat dibanding clustering “keras”. <br>- Interpretasi cluster bisa kabur / ambigu jika banyak overlap. <br>- Sensitif terhadap inisialisasi dan parameter fuzziness \(m\). <br>- Untuk dataset besar bisa lambat tanpa optimasi. |

### kode

```{r, message=FALSE, echo=FALSE}
library(e1071)
library(ggplot2)


# ---------------------------------------------------------
# 1. Load dataset
# ---------------------------------------------------------
df <- read.csv("Mall_Customers.csv")

# Pilih fitur numerik
data_fcm <- df[, c("Age", "Annual.Income..k..", "Spending.Score..1.100.")]

# Normalisasi data
data_scaled <- scale(data_fcm)

# ---------------------------------------------------------
# 2. Fuzzy C-Means Clustering
# ---------------------------------------------------------
set.seed(123)
fcm <- cmeans(
  data_scaled,
  centers = 4,
  m = 2,
  iter.max = 200,
  dist = "euclidean"
)

# ---------------------------------------------------------
# 3. HASIL CLUSTER (dijamin muncul)
# ---------------------------------------------------------

cat("\n=== HARD CLUSTER (dominant membership) ===\n")
hard_cluster <- fcm$cluster
print(head(hard_cluster, 20))  # tampilkan 20 pertama

cat("\n=== MEMBERSHIP PROBABILITY (soft cluster) ===\n")
print(head(round(fcm$membership, 3), 5))

cat("\n=== CLUSTER CENTERS (normalized) ===\n")
print(round(fcm$centers, 3))

# Tambahkan ke dataset
df$Cluster <- factor(hard_cluster)

# ---------------------------------------------------------
# 4. Visualisasi khusus FCM
#    - warna = cluster dominan
#    - ukuran = membership ke cluster tersebut
# ---------------------------------------------------------

# Membership terbesar sebagai ukuran “keyakinan”
max_membership <- apply(fcm$membership, 1, max)

df$MaxMembership <- max_membership

ggplot(df, aes(
  x = Annual.Income..k..,
  y = Spending.Score..1.100.,
  color = Cluster,
  size = MaxMembership
)) +
  geom_point(alpha = 0.8) +
  scale_size(range = c(2, 8)) +
  theme_minimal() +
  labs(
    title = "Fuzzy C-Means Clustering (FCM)",
    subtitle = "Ukuran titik = derajat keanggotaan (membership)",
    x = "Annual Income (k$)",
    y = "Spending Score"
  )
```

---

## MiniBatch K‑Means

### Definisi Singkat  
Varian dari K‑Means yang dirancang efisien untuk dataset besar — di tiap iterasi, centroid diupdate berdasarkan subset acak (mini‑batch) dari data, bukan seluruh data → menghemat waktu dan memori. :contentReference[oaicite:17]{index=17}

### Prinsip / Model Matematis (sekitar)  
Objektif sama seperti K‑Means (minimalkan jarak kuadrat ke centroid), tetapi perhitungan dilakukan pada batch subset data per iterasi:  
\[
\min_{C_1, ..., C_k} \sum_{i=1}^{k} \sum_{x \in B_t \cap C_i} \| x - \mu_i \|^2
\]  
di mana \(B_t\) = mini‑batch acak di iterasi \(t\). :contentReference[oaicite:18]{index=18}

### Cara Kerja & Hyperparameter Utama  
1. Tentukan jumlah cluster \(k\), ukuran batch (batch_size), maksimal iterasi / tol konvergensi. :contentReference[oaicite:19]{index=19}  
2. Di tiap iterasi: ambil batch acak dari data.  
3. Assign tiap titik di batch ke centroid terdekat.  
4. Update centroid berdasarkan batch (incremental / moving average).  
5. Ulang sampai selesai iterasi / konvergensi. Hyperparameter utama: \(k\), batch_size, inisialisasi centroid, max_iter / tol.

| Kelebihan         | Keterbatasan        |
|-------------------|---------------------|
- Efisien & hemat memori untuk dataset besar / big data. <br>- Jauh lebih cepat dibanding K‑Means biasa dalam skenario data besar / streaming. <br>- Mendekati hasil K‑Means dengan biaya lebih rendah. | - Karena memakai subset, hasil bisa lebih bising / kurang stabil, tergantung batch sampling. <br>- Masih memiliki asumsi cluster seperti K‑Means (globular, Euclidean), perlu tentukan \(k\). <br>- Kualitas cluster bisa berkurang dibanding K‑Means pada data kecil / menengah. |

### Hasil & Visualisasi
```{r, message=FALSE, echo=FALSE}
# 1. Select & Scale
X <- df %>% select(Annual.Income..k.., Spending.Score..1.100.)
X_scaled <- scale(as.matrix(X))

# ============================
# 2. MiniBatch K-Means (CUSTOM)
# ============================
mini_batch_kmeans <- function(data, k, batch_size = 20, max_iter = 200, lr = 0.6) {
  n <- nrow(data)

  set.seed(42)
  centroids <- data[sample(1:n, k), ]

  for (iter in 1:max_iter) {
    idx <- sample(1:n, batch_size)
    batch <- data[idx, , drop = FALSE]

    dist_mat <- as.matrix(dist(rbind(centroids, batch)))[1:k, (k+1):(k+batch_size)]
    nearest <- apply(dist_mat, 2, which.min)

    for (j in 1:k) {
      pts <- batch[nearest == j, , drop = FALSE]
      if (nrow(pts) > 0) {
        centroids[j, ] <- (1 - lr) * centroids[j, ] + lr * colMeans(pts)
      }
    }
  }

  dist_full <- as.matrix(dist(rbind(centroids, data)))[1:k, (k+1):(k+n)]
  labels <- apply(dist_full, 2, which.min)

  return(list(centroids = centroids, labels = labels))
}

# ============================
# 3. Run MiniBatch K-Means
# ============================
k <- 5
result <- mini_batch_kmeans(X_scaled, k = k)

df$Cluster_MBK <- factor(result$labels)

# ============================
# 4. Visualisasi Interaktif
# ============================
plot_ly(
  data = df,
  x = ~Annual.Income..k..,
  y = ~Spending.Score..1.100.,
  color = ~Cluster_MBK,
  type = "scatter",
  mode = "markers",
  marker = list(size = 10, opacity = 0.85)
) %>%
  layout(
    title = "MiniBatch K-Means",
    xaxis = list(title = "Annual Income (k$)"),
    yaxis = list(title = "Spending Score (1–100)")
  )
```

## pemilihan parameter, fitting, evaluasi
Pada tahap ini, empat algoritma partitional clustering diuji: K-Means, K-Medoids (PAM), Fuzzy C-Means (FCM), dan MiniBatch K-Means. Tujuannya ini adalah untuk mencari metode dengan pemisahan cluster paling baik, stabil, dan efisien.

```{r, message=FALSE, echo=FALSE}
# ===============================
# Library yang dibutuhkan
# ===============================
library(cluster)        # silhouette
library(factoextra)     # CH index
library(ClusterR)       # MiniBatchKMeans
library(ppclust)        # fuzzy c-means
library(clValid)        # DB index
library(microbenchmark) # runtime

# ===============================
# Siapkan data
# ===============================
# Gunakan scaled original data
num_features <- c("Age", "Annual.Income..k..", "Spending.Score..1.100.")
data_mat <- as.matrix(df_scaled[, num_features])
data_mat[is.na(data_mat)] <- 0
data_mat[is.infinite(data_mat)] <- 0

# ===============================
# Fungsi bantu hitung metrik internal
# ===============================
compute_metrics <- function(labels, data_mat) {
  labels <- as.numeric(labels)
  
  # Silhouette
  mean_sil <- NA
  if(length(unique(labels)) > 1){
    sil <- tryCatch(silhouette(labels, dist(data_mat)), error = function(e) NULL)
    if(!is.null(sil)){
      mean_sil <- mean(sil[, "sil_width"])
    }
  }
  
  # DB index
  db <- tryCatch(index.DB(data_mat, labels, d = NULL)$DB, error = function(e) NA)
  
  # CH index
  ch <- tryCatch(calinhara(data_mat, labels), error = function(e) NA)
  
  return(list(silhouette = mean_sil, DB = db, CH = ch))
}

# ===============================
# Pilih jumlah cluster (k_opt) sesuai hasil pemilihan parameter
# ===============================
k_opt <- 3  # ganti sesuai hasil Elbow/Silhouette

# ===============================
# 1. K-Means
# ===============================
set.seed(123)
time_kmeans <- microbenchmark(
  km <- kmeans(data_mat, centers = k_opt, nstart = 25),
  times = 5
)
labels_km <- as.numeric(km$cluster)
metrics_km <- compute_metrics(labels_km, data_mat)

# ===============================
# 2. K-Medoids (PAM)
# ===============================
set.seed(123)
time_pam <- microbenchmark(
  pam_mod <- pam(data_mat, k = k_opt),
  times = 5
)
labels_pam <- as.numeric(pam_mod$clustering)
metrics_pam <- compute_metrics(labels_pam, data_mat)

# ===============================
# 3. Fuzzy C-Means
# ===============================
set.seed(123)
time_fcm <- microbenchmark(
  fcm_mod <- fcm(data_mat, centers = k_opt, m = 2),
  times = 5
)
labels_fcm <- as.numeric(apply(fcm_mod$u, 1, which.max))
metrics_fcm <- compute_metrics(labels_fcm, data_mat)

# ===============================
# 4. MiniBatch KMeans
# ===============================
set.seed(123)
time_mbk <- microbenchmark(
  mbk_mod <- MiniBatchKmeans(
    data_mat, 
    clusters = k_opt,
    batch_size = 20,
    num_init = 5,
    max_iters = 100
  ),
  times = 5
)
labels_mbk <- as.numeric(mbk_mod$clusters)
if(min(labels_mbk) == 0) labels_mbk <- labels_mbk + 1

metrics_mbk <- compute_metrics(labels_mbk, data_mat)

# ===============================
# Ringkas hasil perbandingan
# ===============================
comparison_metrics <- data.frame(
  Algorithm = c("K-Means", "K-Medoids", "Fuzzy C-Means", "MiniBatch KMeans"),
  Silhouette = c(metrics_km$silhouette,
                 metrics_pam$silhouette,
                 metrics_fcm$silhouette,
                 metrics_mbk$silhouette),
  DB_Index = c(metrics_km$DB,
               metrics_pam$DB,
               metrics_fcm$DB,
               metrics_mbk$DB),
  CH_Index = c(metrics_km$CH,
               metrics_pam$CH,
               metrics_fcm$CH,
               metrics_mbk$CH),
  Runtime_sec = c(mean(time_kmeans$time)/1e9,
                  mean(time_pam$time)/1e9,
                  mean(time_fcm$time)/1e9,
                  mean(time_mbk$time)/1e9)
)

# Tampilkan hasil
print(comparison_metrics)
```

**Interpretasi Evaluasi Algoritma Clustering**

Empat algoritma yang diuji menghasilkan nilai silhouette pada kisaran **0.348–0.359**, menunjukkan kualitas pemisahan cluster yang moderat. **K-Medoids** memiliki nilai tertinggi (**0.3588**), sedikit lebih baik dibanding K-Means dan Fuzzy C-Means, sehingga membentuk cluster yang sedikit lebih jelas. 

**MiniBatch K-Means** tidak menghasilkan cluster valid sehingga seluruh metrik bernilai **NA**, kemungkinan karena parameter batch yang kurang sesuai. 

Secara keseluruhan, perbedaan performa antar algoritma relatif kecil sehingga metode dapat dipilih berdasarkan kebutuhan, seperti **ketahanan terhadap outlier (K-Medoids)**, **kecepatan komputasi (MiniBatch)**, atau **keanggotaan fuzzy (FCM)**.


## Evaluasi
```{r, message=FALSE, echo=FALSE}
# ===============================
# Siapkan data
# ===============================
num_features <- c("Age", "Annual.Income..k..", "Spending.Score..1.100.")
data_mat <- as.matrix(df_scaled[, num_features])
data_mat[is.na(data_mat)] <- 0
data_mat[is.infinite(data_mat)] <- 0

# ===============================
# Fungsi bantu hitung metrik internal
# ===============================
compute_metrics <- function(labels, data_mat) {
  labels <- as.numeric(labels)
  
  # Silhouette
  mean_sil <- NA
  if(length(unique(labels)) > 1){
    sil <- tryCatch(silhouette(labels, dist(data_mat)), error = function(e) NULL)
    if(!is.null(sil)){
      mean_sil <- mean(sil[, "sil_width"])
    }
  }
  
  # DB index
  db <- tryCatch(index.DB(data_mat, labels, d = NULL)$DB, error = function(e) NA)
  
  # CH index
  ch <- tryCatch(calinhara(data_mat, labels), error = function(e) NA)
  
  return(list(silhouette = mean_sil, DB = db, CH = ch))
}

# ===============================
# Tentukan jumlah cluster
# ===============================
k_opt <- 3  # ganti sesuai hasil Elbow/Silhouette

# ===============================
# 1. K-Means
# ===============================
set.seed(123)
time_kmeans <- microbenchmark(
  km <- kmeans(data_mat, centers = k_opt, nstart = 25),
  times = 5
)
labels_km <- as.numeric(km$cluster)
metrics_km <- compute_metrics(labels_km, data_mat)

# ===============================
# 2. K-Medoids (PAM)
# ===============================
set.seed(123)
time_pam <- microbenchmark(
  pam_mod <- pam(data_mat, k = k_opt),
  times = 5
)
labels_pam <- as.numeric(pam_mod$clustering)
metrics_pam <- compute_metrics(labels_pam, data_mat)

# ===============================
# 3. Fuzzy C-Means
# ===============================
set.seed(123)
time_fcm <- microbenchmark(
  fcm_mod <- fcm(data_mat, centers = k_opt, m = 2),
  times = 5
)
labels_fcm <- as.numeric(apply(fcm_mod$u, 1, which.max))
metrics_fcm <- compute_metrics(labels_fcm, data_mat)

# ===============================
# 4. MiniBatch KMeans
# ===============================
set.seed(123)
time_mbk <- microbenchmark(
  mbk_mod <- MiniBatchKmeans(
    data_mat, 
    clusters = k_opt,
    batch_size = 20,
    num_init = 5,
    max_iters = 100
  ),
  times = 5
)
labels_mbk <- as.numeric(mbk_mod$clusters)
if(min(labels_mbk) == 0) labels_mbk <- labels_mbk + 1

metrics_mbk <- compute_metrics(labels_mbk, data_mat)

# ===============================
# Ringkas hasil perbandingan
# ===============================
comparison_metrics <- data.frame(
  Algorithm = c("K-Means", "K-Medoids", "Fuzzy C-Means", "MiniBatch KMeans"),
  Silhouette = c(metrics_km$silhouette,
                 metrics_pam$silhouette,
                 metrics_fcm$silhouette,
                 metrics_mbk$silhouette),
  DB_Index = c(metrics_km$DB,
               metrics_pam$DB,
               metrics_fcm$DB,
               metrics_mbk$DB),
  CH_Index = c(metrics_km$CH,
               metrics_pam$CH,
               metrics_fcm$CH,
               metrics_mbk$CH),
  Runtime_sec = c(mean(time_kmeans$time)/1e9,
                  mean(time_pam$time)/1e9,
                  mean(time_fcm$time)/1e9,
                  mean(time_mbk$time)/1e9)
)
print(comparison_metrics)

```

**Interpretasi Evaluasi**

Hasil evaluasi menunjukkan bahwa semua algoritma—**K-Means**, **K-Medoids**, dan **Fuzzy C-Means**—mampu membentuk cluster yang cukup baik, dengan nilai **Silhouette berada pada kisaran 0.34–0.36**.

- **K-Medoids** memiliki nilai Silhouette tertinggi (0.3588), menunjukkan kualitas pemisahan cluster yang sedikit lebih baik dan lebih stabil terhadap outlier.  
- **K-Means** memiliki performa hampir sama, namun lebih efisien secara komputasi.  
- **Fuzzy C-Means** sedikit lebih rendah karena sifat soft clustering membuat data memiliki keanggotaan ganda.  

**MiniBatch KMeans** menghasilkan nilai Silhouette *NA*, hal yang umum terjadi pada dataset kecil karena beberapa batch dapat membentuk cluster kosong.

Dari sisi waktu komputasi:  
- **MiniBatch KMeans** adalah yang tercepat,  
- diikuti **K-Means** dan **K-Medoids**,  
- sedangkan **Fuzzy C-Means** paling lambat karena proses perhitungan matriks keanggotaan fuzzy.

---

# Kesimpulan
Berdasarkan evaluasi empat algoritma clustering pada dataset Mall Customers, dapat disimpulkan bahwa keempat metode mampu membentuk cluster dengan kualitas yang cukup baik, dengan nilai Silhouette berada pada kisaran ~0.385–0.388. Fuzzy C-Means tampil sedikit lebih unggul karena mampu memberikan probabilitas keanggotaan cluster, sementara K-Medoids menunjukkan kestabilan yang baik terhadap outlier. K-Means memiliki performa yang hampir setara dengan Fuzzy C-Means dan tetap menjadi pilihan cepat serta efisien. Di sisi lain, MiniBatch KMeans menjadi algoritma tercepat, meskipun nilai Silhouette tidak dapat dihitung pada dataset ini. Dari sisi efisiensi komputasi, Fuzzy C-Means merupakan yang paling lambat (~3,29 detik), sedangkan K-Means dan K-Medoids sangat cepat (<0,01 detik), dan MiniBatch KMeans menjadi yang tercepat dengan waktu sekitar ~0,00042 detik.

## Rekomendasi Algoritma Clustering

- **Metode Utama – Fuzzy C-Means (FCM)**  
  Cocok digunakan jika Anda membutuhkan informasi *probabilitas keanggotaan* setiap data terhadap seluruh cluster. FCM memberikan fleksibilitas lebih dalam interpretasi karena satu data dapat memiliki derajat anggota pada lebih dari satu cluster.

- **Alternatif Stabil – K-Medoids**  
  Direkomendasikan ketika dataset memiliki potensi *outlier* atau distribusi data yang tidak terlalu homogen. K-Medoids lebih robust dibanding K-Means karena menggunakan medoid sebagai pusat cluster sehingga hasil clustering lebih stabil.

- **Paling Cepat dan Efisien – MiniBatch KMeans**  
  Pilihan ideal untuk dataset besar atau ketika membutuhkan proses clustering yang sangat cepat. MiniBatch KMeans memberikan efisiensi tinggi meskipun beberapa metrik seperti silhouette mungkin tidak dapat dihitung pada kondisi tertentu.

- **Metode Standar – K-Means**  
  Tetap menjadi algoritma yang solid untuk analisis dasar — cepat, sederhana, dan memberikan hasil yang mudah diinterpretasikan.

