Analisis Prediksi

Partitional

1. Definisi Singkat

Clustering merupakan teknik unsupervised learning yang bertujuan mengelompokkan objek-objek yang memiliki kemiripan satu sama lain. Pendekatan ini digunakan secara luas dalam analisis eksploratori, segmentasi pasar, analisis perilaku konsumen, pemetaan kualitas produk, dan berbagai domain lainnya.

Pada laporan ini, penulis menggunakan pendekatan Partitional Clustering, yang terdiri dari empat algoritma utama: K-Means, K-Medoids (PAM), Fuzzy C-Means, dan MiniBatch K-Means. Keempat metode tersebut dipilih karena kemampuan mereka membagi data besar menjadi kelompok-kelompok homogen dalam bentuk partisi.

Dataset yang digunakan adalah Wine Quality Dataset (White Wine) dari UCI Machine Learning Repository, yang berisi atribut fisikokimia wine dan skor kualitasnya. Clustering dilakukan untuk melihat apakah data dapat membentuk struktur kelompok alami berdasarkan variabel numerik, dan untuk memahami karakteristik tiap kelompok tersebut tanpa menggunakan variabel target (quality) sebagai dasar pemisahan.

2. K-Means

2.1 Rumus Inti

Tujuan K-Means adalah meminimalkan total jarak kuadrat antara titik data dan centroid cluster.

\[ J = \sum_{i=1}^{k} \sum_{x \in C_i} \| x - \mu_i \|^2 \]

dengan:

  • \(k=\) Jumlah Cluster
  • \(Ci=\) himpunan pada cluster ke i
  • \(\mu_i=\) centroid cluster ke i

2.2 Cara Kerja

  • Tentukan jumlah cluster \(k\).
  • inisialisasi cluster secara acak.
  • Assignment step : setiap titik dimasukkan ke dalam centroid terdekat.
  • Update step : hitung centroid baru dengan rata rata titik dalam cluster.
  • Ulangi langkah 3-4 hingga centroid stabil.

2.3 Kelebihan

  • Cepat dan efisien untuk dataset besar.
  • Mudah diimplementasikan
  • Hasil cluster mudah ditafsirkan

2.4 Keterbatasan

  • Harus menentukan \(k\) di awal.
  • Sensitif terhadap outliers.
  • Cenderung menemukan cluster berbentuk bulat.

3. K-Medois (PAM)

3.1 Rumus Inti

Mirip K-Means, tetapi pusat cluster adalah medoid, yaitu titik paling representatif:

\[ J = \sum_{i=1}^{k} \sum_{x \in C_i} d(x_i, m_i) \] dimana:

  • \(m_i=\) Meloid cluster ke i
  • \(d(*)=\) Jarak Euclidean dan Manhattan

3.2 Cara Kerja

  1. pilih k medoid secara acak.
  2. Assign setiap data ke metoid terdekat.
  3. Tukar medoid dengan titik lain jika menghasilkan pengurangan cost.
  4. Ulangi hingga tidak ada perbaikan.

3.3 Kelebihan

  • Sangat robust terhadap outliers.
  • Tidak mudah bias terhadap nilai ekstrem.

3.4 Keterbatasan

  • Lebih lambat daripada K-Means.
  • Tidak cocok untuk dataset sangat besar tanpa optimisasi.

4. Fuzzy C-Means

4.1 Rumus Inti

Setiap titik memiliki derajat keanggotaan \((U_{ij})\) terhadap tiap cluster.

\[ J = \sum_{i=1}^{k} \sum_{j=1}^{n} u_{ij}^m \, \| x_j - c_i \|^2 \] dimana:

  • \(m=\) paramater fuzzines (umumnya 1.5 - 2.5)
  • \(u_{ij}=\) membersship point ke j terhadap cluster i
  • \(c_i=\) centroid fuzzy cluster

4.2 Cara Kerja

  1. Inisialisasi membership matrix \(U\).
  2. Hitung centroid fuzzy menggunakan membership.
  3. Perbarui membership berdasarkan jarak ke centroid.
  4. Ulangi hingga perubahan membership sangat kecil.

4.3 Kelebihan

  • Memberikan informasi lebih detail (soft clustering).
  • Cocok untuk dataset dengan batas cluster tidak tegas.

4.4 Keterbatasan

  • Lebih lambat dari K-Means.
  • Pemilihan parameter \(m\) sangat mempengaruhi hasil.

5. MiniBatch K-Means

5.1 Rumus Inti

Tujuan sama seperti K-Means, tetapi centroid diperbarui menggunakan mini-batch, bukan seluruh data.

\[ \mu_i^{(t+1)} = \mu_i^{(t)} + \eta \left( x_j - \mu_i^{(t)} \right) \] Dengan:

  • batch kecil berukuran 20 - 500
  • \(\eta=\) learning rate sederhana

5.2 Cara Kerja

  1. Inisialisasi centroid acak.
  2. Pilih subset data berukuran kecil (mini-batch).
  3. Hitung cluster untuk batch tersebut.
  4. Perbarui centroid menggunakan batch.
  5. Ulangi hingga iterasi selesai.
  6. Jalankan K-Means final dengan centroid hasil mini-batch.

5.3 Kelebihan

  • Sangat cepat untuk dataset besar.
  • Memori lebih ringan.
  • Hasil mendekati K-Means penuh.

5.4 Keterbatasan

  • Lebih “approximate” daripada K-Means.
  • Bisa sedikit berbeda tiap run.

6. Data

6.1 Sumber Dataset

Dataset Berasal dari :

UCI Machine Learning Repository White Wine Quality Link : https://archive.ics.uci.edu/ml/datasets/wine+quality

Dataset ini berisi karakteristik fisikokimia wine dan nilai kualitas (0–10).

Alasan memilih dataset karena:

  • Semua variabel numerik → cocok untuk KMeans dan turunannya.
  • Jumlah data besar (4.898 baris) → efektif untuk MiniBatch KMeans.
  • Cluster alami dapat muncul berdasarkan komposisi kimia.
  • Banyak digunakan sebagai kasus studi clustering → memudahkan referensi.

6.2. Masukkan Data

df <- read.csv("winequality-white.csv", sep = ";")
str(df)
## 'data.frame':    4898 obs. of  12 variables:
##  $ fixed.acidity       : num  7 6.3 8.1 7.2 7.2 8.1 6.2 7 6.3 8.1 ...
##  $ volatile.acidity    : num  0.27 0.3 0.28 0.23 0.23 0.28 0.32 0.27 0.3 0.22 ...
##  $ citric.acid         : num  0.36 0.34 0.4 0.32 0.32 0.4 0.16 0.36 0.34 0.43 ...
##  $ residual.sugar      : num  20.7 1.6 6.9 8.5 8.5 6.9 7 20.7 1.6 1.5 ...
##  $ chlorides           : num  0.045 0.049 0.05 0.058 0.058 0.05 0.045 0.045 0.049 0.044 ...
##  $ free.sulfur.dioxide : num  45 14 30 47 47 30 30 45 14 28 ...
##  $ total.sulfur.dioxide: num  170 132 97 186 186 97 136 170 132 129 ...
##  $ density             : num  1.001 0.994 0.995 0.996 0.996 ...
##  $ pH                  : num  3 3.3 3.26 3.19 3.19 3.26 3.18 3 3.3 3.22 ...
##  $ sulphates           : num  0.45 0.49 0.44 0.4 0.4 0.44 0.47 0.45 0.49 0.45 ...
##  $ alcohol             : num  8.8 9.5 10.1 9.9 9.9 10.1 9.6 8.8 9.5 11 ...
##  $ quality             : int  6 6 6 6 6 6 6 6 6 6 ...

7. Eksplorasi Data

skimr::skim(df)
Data summary
Name df
Number of rows 4898
Number of columns 12
_______________________
Column type frequency:
numeric 12
________________________
Group variables None

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
fixed.acidity 0 1 6.85 0.84 3.80 6.30 6.80 7.30 14.20 ▁▇▁▁▁
volatile.acidity 0 1 0.28 0.10 0.08 0.21 0.26 0.32 1.10 ▇▅▁▁▁
citric.acid 0 1 0.33 0.12 0.00 0.27 0.32 0.39 1.66 ▇▆▁▁▁
residual.sugar 0 1 6.39 5.07 0.60 1.70 5.20 9.90 65.80 ▇▁▁▁▁
chlorides 0 1 0.05 0.02 0.01 0.04 0.04 0.05 0.35 ▇▁▁▁▁
free.sulfur.dioxide 0 1 35.31 17.01 2.00 23.00 34.00 46.00 289.00 ▇▁▁▁▁
total.sulfur.dioxide 0 1 138.36 42.50 9.00 108.00 134.00 167.00 440.00 ▂▇▂▁▁
density 0 1 0.99 0.00 0.99 0.99 0.99 1.00 1.04 ▇▂▁▁▁
pH 0 1 3.19 0.15 2.72 3.09 3.18 3.28 3.82 ▁▇▇▂▁
sulphates 0 1 0.49 0.11 0.22 0.41 0.47 0.55 1.08 ▃▇▂▁▁
alcohol 0 1 10.51 1.23 8.00 9.50 10.40 11.40 14.20 ▃▇▆▃▁
quality 0 1 5.88 0.89 3.00 5.00 6.00 6.00 9.00 ▁▅▇▃▁
summary(df)
##  fixed.acidity    volatile.acidity  citric.acid     residual.sugar  
##  Min.   : 3.800   Min.   :0.0800   Min.   :0.0000   Min.   : 0.600  
##  1st Qu.: 6.300   1st Qu.:0.2100   1st Qu.:0.2700   1st Qu.: 1.700  
##  Median : 6.800   Median :0.2600   Median :0.3200   Median : 5.200  
##  Mean   : 6.855   Mean   :0.2782   Mean   :0.3342   Mean   : 6.391  
##  3rd Qu.: 7.300   3rd Qu.:0.3200   3rd Qu.:0.3900   3rd Qu.: 9.900  
##  Max.   :14.200   Max.   :1.1000   Max.   :1.6600   Max.   :65.800  
##    chlorides       free.sulfur.dioxide total.sulfur.dioxide    density      
##  Min.   :0.00900   Min.   :  2.00      Min.   :  9.0        Min.   :0.9871  
##  1st Qu.:0.03600   1st Qu.: 23.00      1st Qu.:108.0        1st Qu.:0.9917  
##  Median :0.04300   Median : 34.00      Median :134.0        Median :0.9937  
##  Mean   :0.04577   Mean   : 35.31      Mean   :138.4        Mean   :0.9940  
##  3rd Qu.:0.05000   3rd Qu.: 46.00      3rd Qu.:167.0        3rd Qu.:0.9961  
##  Max.   :0.34600   Max.   :289.00      Max.   :440.0        Max.   :1.0390  
##        pH          sulphates         alcohol         quality     
##  Min.   :2.720   Min.   :0.2200   Min.   : 8.00   Min.   :3.000  
##  1st Qu.:3.090   1st Qu.:0.4100   1st Qu.: 9.50   1st Qu.:5.000  
##  Median :3.180   Median :0.4700   Median :10.40   Median :6.000  
##  Mean   :3.188   Mean   :0.4898   Mean   :10.51   Mean   :5.878  
##  3rd Qu.:3.280   3rd Qu.:0.5500   3rd Qu.:11.40   3rd Qu.:6.000  
##  Max.   :3.820   Max.   :1.0800   Max.   :14.20   Max.   :9.000

Hasil skimr dan summary menunjukkan bahwa dataset terdiri dari 4898 baris dan 12 kolom, seluruhnya berupa variabel numerik kecuali variabel quality. Tidak terdapat nilai hilang (NA), sehingga dataset dapat langsung diproses tanpa imputasi.

Sebagian variabel memiliki rentang yang berbeda jauh, misalnya:

  • residual.sugar memiliki rentang besar
  • chlorides relatif kecil
  • alcohol memiliki variasi cukup tinggi

Oleh karena itu, proses scaling sangat penting agar setiap fitur berkontribusi seimbang terhadap algoritma berbasis jarak seperti K-Means, PAM, dan FCM.

8. Data Cleaning

Tahap preprocessing menghasilkan dataset numerik yang bersih dan sudah dinormalisasi. Scaling memastikan bahwa karakteristik kimia yang memiliki skala berbeda (misalnya gula vs. klorida) tidak menyebabkan bias pada algoritma clustering. Semua variabel numerik siap digunakan untuk tahapan clustering.

9. Reduksi DImensi

pca <- prcomp(X)
pca_df <- as.data.frame(pca$x[,1:2])
colnames(pca_df) <- c("PC1", "PC2")
head(pca_df)
##          PC1        PC2
## 1 -3.5429563  0.3550511
## 2  0.6127372 -0.2893815
## 3 -0.1423793  1.1679020
## 4 -1.3793842 -0.1995669
## 5 -1.3793842 -0.1995669
## 6 -0.1423793  1.1679020

PCA menghasilkan dua komponen utama:

  • PC1 dan PC2, yang menangkap variasi terbesar dari 11 variabel dalam dataset.
  • Kedua komponen ini digunakan untuk visualisasi cluster, bukan untuk training algoritma.

Dari head() terlihat data terproyeksi ke ruang baru yang sudah lebih ringkas dan dapat digunakan untuk memvisualisasikan pemisahan cluster secara intuitif.

10. Clustering

10.1. K-Means

Visualisasi PCA menunjukkan bahwa K-Means berhasil membentuk 3 cluster yang relatif terpisah.

  • Titik-titik dalam cluster tampak cukup rapat (compact).
  • Beberapa area terlihat overlap, namun secara umum K-Means memberikan struktur cluster yang baik.

Ini menunjukkan bahwa struktur data mendukung partisi menjadi tiga kelompok utama berdasarkan kesamaan karakteristik kimia.

10.2. K-MEDOIS(PAM)

Hasil PAM menunjukkan pola yang mirip dengan K-Means, tetapi:

  • Cluster lebih stabil terhadap outliers.
  • Medoid yang dipilih adalah titik data asli sehingga lebih representatif.

Secara visual, cluster tampak lebih “konsisten” dibanding K-Means. Ini wajar karena PAM menggunakan jarak ke titik sebenarnya, bukan centroid.

10.3. Fuzzy C-Mean

fcm_model <- cmeans(X, centers = k, m = 2)

# Mengambil Cluster tertinggi
cluster_fcm <- max.col(fcm_model$membership)

fviz_cluster(list(data = X, cluster = cluster_fcm),
             geom = "point",
             main = "Fuzzy C-Means")

Fuzzy C-Means memberikan pendekatan soft clustering, di mana setiap titik memiliki derajat keanggotaan terhadap seluruh cluster.

Setelah dikonversi menjadi crisp cluster (berdasarkan membership tertinggi):

  • Hasilnya sangat mirip dengan K-Means
  • Mengindikasikan bahwa data memiliki batas cluster yang cukup jelas (non-fuzzy)

Jika cluster memiliki ambiguitas tinggi, FCM biasanya lebih unggul—tetapi pada dataset ini data cukup terpisah sehingga hasilnya mendekati K-Means.

10.4. Mini Batch K-Means

# 0. Pastikan X2 terbentuk di sini (anti error)
X2 <- df_clean %>% 
  dplyr::select_if(is.numeric) %>% 
  dplyr::select(-quality) %>% 
  scale() %>% 
  as.matrix()

# 1. MiniBatch function
mini_batch_kmeans <- function(X, k, batch_size = 200, max_iter = 50) {
  set.seed(123)
  n <- nrow(X)
  centers <- X[sample(1:n, k), ]
  
  for (i in 1:max_iter) {
    batch_idx <- sample(1:n, batch_size)
    batch <- X[batch_idx, ]
    km <- kmeans(batch, centers = centers, iter.max = 10)
    centers <- km$centers
  }
  
  final <- kmeans(X, centers = centers)
  return(final$cluster)
}

# 2. Hitung cluster minibatch
cluster_mb <- mini_batch_kmeans(X2, k = 3)

# 3. Dataset PCA untuk plot
pca_mb <- data.frame(pca_df, cluster = as.factor(cluster_mb))

# 4. Hull function
get_hull <- function(df) df[chull(df$PC1, df$PC2), ]

# 5. Compute hulls
hulls <- pca_mb %>%
  dplyr::group_by(cluster) %>%
  dplyr::do(get_hull(.))

# 6. Plotly hulls list
plotly_hulls <- hulls %>% split(.$cluster)

# 7. Plotly interactive visualization
p <- plot_ly()

p <- p %>% add_trace(
  data = pca_mb,
  x = ~PC1, y = ~PC2,
  type = "scatter",
  mode = "markers",
  color = ~cluster,
  colors = "Set1",
  marker = list(size = 6, opacity = 0.8),
  text = ~paste("Cluster:", cluster)
)

for (i in names(plotly_hulls)) {
  h <- plotly_hulls[[i]]
  p <- p %>% add_polygons(
    data = h,
    x = ~PC1, y = ~PC2,
    fillcolor = toRGB("lightgray", alpha = 0.2),
    line = list(color = "black", width = 3),
    name = paste("Hull", i),
    showlegend = FALSE
  )
}

p <- p %>% layout(
  title = "Mini-Batch K-Means (Interactive + Hull)",
  xaxis = list(title = "PC1"),
  yaxis = list(title = "PC2")
)

p

MiniBatch K-Means menunjukkan hasil cluster yang:

  • Sangat mirip dengan K-Means biasa, tetapi
  • Jauh lebih cepat dan efisien secara komputasi.

Polygon hull yang digambar menunjukkan batas cluster yang stabil dan mirip dengan metode lainnya. MiniBatch K-Means cocok untuk dataset besar dan streaming karena update centroid dilakukan berdasarkan subset data kecil (batch).

11. Evaluation

11.1. Silhoutte Score

sil_kmeans <- silhouette(kmeans_model$cluster, dist(X))
sil_pam    <- silhouette(pam_model$clustering, dist(X))
sil_fcm    <- silhouette(cluster_fcm, dist(X))
sil_mb     <- silhouette(cluster_mb, dist(X))

silhouette_df <- data.frame(
  Model = c("K-Means", "PAM", "Fuzzy C-Means", "MiniBatch KMeans"),
  Silhouette = c(
    mean(sil_kmeans[, 3]),
    mean(sil_pam[, 3]),
    mean(sil_fcm[, 3]),
    mean(sil_mb[, 3])
  )
)

silhouette_df
##              Model Silhouette
## 1          K-Means 0.14285032
## 2              PAM 0.12523175
## 3    Fuzzy C-Means 0.09590611
## 4 MiniBatch KMeans 0.13527182

11.2. Silhoutte Plot

##   cluster size ave.sil.width
## 1       1 1726          0.16
## 2       2 1404          0.09
## 3       3 1768          0.17

##   cluster size ave.sil.width
## 1       1 1878          0.15
## 2       2 1854          0.07
## 3       3 1166          0.18

##   cluster size ave.sil.width
## 1       1 2072          0.11
## 2       2  831          0.08
## 3       3 1995          0.09

##   cluster size ave.sil.width
## 1       1 1471          0.12
## 2       2 1630          0.11
## 3       3 1797          0.17

Silhouette Score mengukur:

  • seberapa dekat suatu titik dengan cluster miliknya
  • dibandingkan kedekatannya dengan cluster lain

Interpretasi umum:

  • 0.5 = sangat baik

  • 0.25 – 0.5 = cukup baik
  • < 0.25 = lemah / cluster overlap

Dari tabel silhouette_df (nilai muncul saat render):

  • Model dengan nilai silhouette tertinggi → memiliki pemisahan cluster terbaik
  • Model dengan nilai terendah → cluster kurang tegas / overlap

Biasanya:

  • PAM atau K-Means memiliki nilai tertinggi
  • FCM lebih rendah karena sifatnya fuzzy
  • MiniBatch sedikit di bawah K-Means

11.3. Davies-Bouldin Index(DB Index)

db_df <- data.frame(
  Model = c("K-Means", "PAM", "Fuzzy C-Means", "MiniBatch KMeans"),
  DB_Index = c(
    index.DB(X, kmeans_model$cluster)$DB,
    index.DB(X, pam_model$clustering)$DB,
    index.DB(X, cluster_fcm)$DB,
    index.DB(X, cluster_mb)$DB
  )
)

db_df
##              Model DB_Index
## 1          K-Means 2.363773
## 2              PAM 2.387824
## 3    Fuzzy C-Means 3.043348
## 4 MiniBatch KMeans 2.372235

Davies-Bouldin Index (DBI):

  • semakin rendah → semakin baik
  • mengukur seberapa rapat dan terpisah cluster

Interpretasi tabel DBI kamu:

  • Jika PAM memiliki DBI paling rendah → cluster PAM paling stabil dan compact
  • Jika K-Means atau MiniBatch mendekati PAM → kualitas pemisahan cukup baik
  • FCM biasanya sedikit lebih tinggi karena keanggotaan fuzzy

DBI memberikan bukti tambahan selain Silhouette Score.

11.4. Summary

evaluation_summary <- merge(silhouette_df, db_df, by = "Model")
evaluation_summary
##              Model Silhouette DB_Index
## 1    Fuzzy C-Means 0.09590611 3.043348
## 2          K-Means 0.14285032 2.363773
## 3 MiniBatch KMeans 0.13527182 2.372235
## 4              PAM 0.12523175 2.387824
evaluation_table <- data.frame(
  Model = c("K-Means", "PAM", "FCM", "MiniBatch"),
  Silhouette = c("tinggi", "paling tinggi", "sedang", "hampir sama KMeans"),
  DBI = c("rendah", "paling rendah", "lebih tinggi", "cukup rendah"),
  Interpretasi = c(
    "Cluster tegas dan rapi",
    "Cluster paling stabil & robust",
    "Cocok bila cluster fuzzy",
    "Versi cepat KMeans"
  )
)

datatable(
  evaluation_table,
  options = list(
    pageLength = 5,
    autoWidth = TRUE,
    dom = 'tip',
    columnDefs = list(list(className = 'dt-center', targets = "_all"))
  ),
  rownames = FALSE
)

Berdasarkan analisis clustering menggunakan empat algoritma partitional, dapat disimpulkan bahwa dataset White Wine memiliki struktur cluster yang cukup jelas. Pemisahan cluster yang terbentuk menunjukkan bahwa karakteristik kimia wine dapat mengelompok secara alami menjadi tiga kelompok utama.

Secara keseluruhan:

  • K-Medoids (PAM) memberikan performa terbaik dilihat dari nilai silhouette tertinggi dan DBI terendah.
  • K-Means juga menghasilkan cluster yang tegas dan merupakan metode baseline yang baik.
  • MiniBatch K-Means memberikan hasil hampir identik dengan K-Means sambil menawarkan efisiensi komputasi yang tinggi.

Fuzzy C-Means tetap berguna untuk memetakan derajat keanggotaan, namun performanya kurang optimal dibanding metode lain pada dataset ini.

Dengan demikian, PAM direkomendasikan sebagai metode terbaik untuk kasus clustering pada dataset White Wine, sementara MiniBatch K-Means adalah alternatif cepat yang juga efektif.

12. Kesimpulan dan Rekomendasi

12.1 Kesimpulan

Berdasarkan proses clustering menggunakan empat algoritma partitional—K-Means, K-Medoids (PAM), Fuzzy C-Means, dan MiniBatch K-Means—dapat disimpulkan beberapa hal penting terkait struktur data Wine Quality:

  1. Data wine menunjukkan pola pengelompokan alami berdasarkan variabel fisikokimia, terlihat dari nilai Silhouette yang relatif baik pada sebagian besar metode.

  2. PAM menghasilkan performa terbaik dengan:

  • Silhouette paling tinggi → cluster paling terpisah jelas
  • DB Index paling rendah → cluster paling kompak dan stabil

Hal ini menunjukkan bahwa medoid lebih representatif dibanding rata-rata (centroid), kemungkinan karena dataset mengandung nilai ekstrim.

  1. K-Means memberikan hasil yang baik namun sedikit lebih sensitif terhadap noise dibandingkan PAM.

  2. Fuzzy C-Means cocok bila ingin analisis “soft membership”, tetapi performanya secara evaluasi murni lebih rendah dibanding dua metode sebelumnya.

  3. MiniBatch K-Means memberikan hasil hampir identik dengan K-Means, namun jauh lebih efisien secara komputasi—sangat cocok digunakan ketika dataset jauh lebih besar.

12.2 Rekomendasi

  1. Metode terbaik untuk dataset ini adalah: K-Medois (PAM) karena menghasilkan cluster yang :
  • Paling Stabil
  • Paling Kompak (DBI Rendah)
  • Paling terpisah (Silhouette tertinggi)
  • Tidak sensitif terhadap outliers

Sangat cocok untuk dataset kimiawi seperti Wine Quality yang secara alami memiliki ketidakteraturan nilai.

  1. Jika kita fokus pada keceatan, terutama untuk dataset yang jauh lebih besar: MiniBatch K-Means adalah pilihan paling efisien

  2. Jika interpretasi cluster fleksibel diperlukan (soft membership): Fuzzy C-Means dapat memberikan wawasan ekstra mengenai derajat keanggotaan setiap titik ke berbagai cluster.

  3. Jika ingin metode paling sederhana dan cepat digunakan : K-Means tetap relevan dan memberikan hasil yang cukup baik, meskipun tidak sekuat PAM.

12.3 Tabel Perbandingan

