
1. Definisi Singkat
Clustering merupakan teknik unsupervised learning yang bertujuan
mengelompokkan objek-objek yang memiliki kemiripan satu sama lain.
Pendekatan ini digunakan secara luas dalam analisis eksploratori,
segmentasi pasar, analisis perilaku konsumen, pemetaan kualitas produk,
dan berbagai domain lainnya.
Pada laporan ini, penulis menggunakan pendekatan Partitional
Clustering, yang terdiri dari empat algoritma utama: K-Means, K-Medoids
(PAM), Fuzzy C-Means, dan MiniBatch K-Means. Keempat metode tersebut
dipilih karena kemampuan mereka membagi data besar menjadi
kelompok-kelompok homogen dalam bentuk partisi.
Dataset yang digunakan adalah Wine Quality Dataset (White Wine) dari
UCI Machine Learning Repository, yang berisi atribut fisikokimia wine
dan skor kualitasnya. Clustering dilakukan untuk melihat apakah data
dapat membentuk struktur kelompok alami berdasarkan variabel numerik,
dan untuk memahami karakteristik tiap kelompok tersebut tanpa
menggunakan variabel target (quality) sebagai dasar pemisahan.
2. K-Means
2.1 Rumus Inti
Tujuan K-Means adalah meminimalkan total jarak kuadrat antara titik
data dan centroid cluster.
\[
J = \sum_{i=1}^{k} \sum_{x \in C_i} \| x - \mu_i \|^2
\]
dengan:
- \(k=\) Jumlah Cluster
- \(Ci=\) himpunan pada cluster ke
i
- \(\mu_i=\) centroid cluster ke
i
2.2 Cara Kerja
- Tentukan jumlah cluster \(k\).
- inisialisasi cluster secara acak.
- Assignment step : setiap titik dimasukkan ke dalam centroid
terdekat.
- Update step : hitung centroid baru dengan rata rata titik dalam
cluster.
- Ulangi langkah 3-4 hingga centroid stabil.
2.3 Kelebihan
- Cepat dan efisien untuk dataset besar.
- Mudah diimplementasikan
- Hasil cluster mudah ditafsirkan
2.4 Keterbatasan
- Harus menentukan \(k\) di
awal.
- Sensitif terhadap outliers.
- Cenderung menemukan cluster berbentuk bulat.
3. K-Medois (PAM)
3.1 Rumus Inti
Mirip K-Means, tetapi pusat cluster adalah medoid, yaitu titik paling
representatif:
\[
J = \sum_{i=1}^{k} \sum_{x \in C_i} d(x_i, m_i)
\] dimana:
- \(m_i=\) Meloid cluster ke i
- \(d(*)=\) Jarak Euclidean dan
Manhattan
3.2 Cara Kerja
- pilih k medoid secara acak.
- Assign setiap data ke metoid terdekat.
- Tukar medoid dengan titik lain jika menghasilkan pengurangan
cost.
- Ulangi hingga tidak ada perbaikan.
3.3 Kelebihan
- Sangat robust terhadap outliers.
- Tidak mudah bias terhadap nilai ekstrem.
3.4 Keterbatasan
- Lebih lambat daripada K-Means.
- Tidak cocok untuk dataset sangat besar tanpa optimisasi.
4. Fuzzy C-Means
4.1 Rumus Inti
Setiap titik memiliki derajat keanggotaan \((U_{ij})\) terhadap tiap cluster.
\[
J = \sum_{i=1}^{k} \sum_{j=1}^{n} u_{ij}^m \, \| x_j - c_i \|^2
\] dimana:
- \(m=\) paramater fuzzines (umumnya
1.5 - 2.5)
- \(u_{ij}=\) membersship point ke j
terhadap cluster i
- \(c_i=\) centroid fuzzy
cluster
4.2 Cara Kerja
- Inisialisasi membership matrix \(U\).
- Hitung centroid fuzzy menggunakan membership.
- Perbarui membership berdasarkan jarak ke centroid.
- Ulangi hingga perubahan membership sangat kecil.
4.3 Kelebihan
- Memberikan informasi lebih detail (soft clustering).
- Cocok untuk dataset dengan batas cluster tidak tegas.
4.4 Keterbatasan
- Lebih lambat dari K-Means.
- Pemilihan parameter \(m\) sangat
mempengaruhi hasil.
5. MiniBatch K-Means
5.1 Rumus Inti
Tujuan sama seperti K-Means, tetapi centroid diperbarui menggunakan
mini-batch, bukan seluruh data.
\[
\mu_i^{(t+1)} = \mu_i^{(t)} + \eta \left( x_j - \mu_i^{(t)} \right)
\] Dengan:
- batch kecil berukuran 20 - 500
- \(\eta=\) learning rate
sederhana
5.2 Cara Kerja
- Inisialisasi centroid acak.
- Pilih subset data berukuran kecil (mini-batch).
- Hitung cluster untuk batch tersebut.
- Perbarui centroid menggunakan batch.
- Ulangi hingga iterasi selesai.
- Jalankan K-Means final dengan centroid hasil mini-batch.
5.3 Kelebihan
- Sangat cepat untuk dataset besar.
- Memori lebih ringan.
- Hasil mendekati K-Means penuh.
5.4 Keterbatasan
- Lebih “approximate” daripada K-Means.
- Bisa sedikit berbeda tiap run.
6. Data
6.1 Sumber Dataset
Dataset Berasal dari :
UCI Machine Learning Repository White Wine Quality Link : https://archive.ics.uci.edu/ml/datasets/wine+quality
Dataset ini berisi karakteristik fisikokimia wine dan nilai kualitas
(0–10).
Alasan memilih dataset karena:
- Semua variabel numerik → cocok untuk KMeans dan turunannya.
- Jumlah data besar (4.898 baris) → efektif untuk MiniBatch
KMeans.
- Cluster alami dapat muncul berdasarkan komposisi kimia.
- Banyak digunakan sebagai kasus studi clustering → memudahkan
referensi.
6.2. Masukkan Data
df <- read.csv("winequality-white.csv", sep = ";")
str(df)
## 'data.frame': 4898 obs. of 12 variables:
## $ fixed.acidity : num 7 6.3 8.1 7.2 7.2 8.1 6.2 7 6.3 8.1 ...
## $ volatile.acidity : num 0.27 0.3 0.28 0.23 0.23 0.28 0.32 0.27 0.3 0.22 ...
## $ citric.acid : num 0.36 0.34 0.4 0.32 0.32 0.4 0.16 0.36 0.34 0.43 ...
## $ residual.sugar : num 20.7 1.6 6.9 8.5 8.5 6.9 7 20.7 1.6 1.5 ...
## $ chlorides : num 0.045 0.049 0.05 0.058 0.058 0.05 0.045 0.045 0.049 0.044 ...
## $ free.sulfur.dioxide : num 45 14 30 47 47 30 30 45 14 28 ...
## $ total.sulfur.dioxide: num 170 132 97 186 186 97 136 170 132 129 ...
## $ density : num 1.001 0.994 0.995 0.996 0.996 ...
## $ pH : num 3 3.3 3.26 3.19 3.19 3.26 3.18 3 3.3 3.22 ...
## $ sulphates : num 0.45 0.49 0.44 0.4 0.4 0.44 0.47 0.45 0.49 0.45 ...
## $ alcohol : num 8.8 9.5 10.1 9.9 9.9 10.1 9.6 8.8 9.5 11 ...
## $ quality : int 6 6 6 6 6 6 6 6 6 6 ...
7. Eksplorasi Data
Data summary
| Name |
df |
| Number of rows |
4898 |
| Number of columns |
12 |
| _______________________ |
|
| Column type frequency: |
|
| numeric |
12 |
| ________________________ |
|
| Group variables |
None |
Variable type: numeric
| fixed.acidity |
0 |
1 |
6.85 |
0.84 |
3.80 |
6.30 |
6.80 |
7.30 |
14.20 |
▁▇▁▁▁ |
| volatile.acidity |
0 |
1 |
0.28 |
0.10 |
0.08 |
0.21 |
0.26 |
0.32 |
1.10 |
▇▅▁▁▁ |
| citric.acid |
0 |
1 |
0.33 |
0.12 |
0.00 |
0.27 |
0.32 |
0.39 |
1.66 |
▇▆▁▁▁ |
| residual.sugar |
0 |
1 |
6.39 |
5.07 |
0.60 |
1.70 |
5.20 |
9.90 |
65.80 |
▇▁▁▁▁ |
| chlorides |
0 |
1 |
0.05 |
0.02 |
0.01 |
0.04 |
0.04 |
0.05 |
0.35 |
▇▁▁▁▁ |
| free.sulfur.dioxide |
0 |
1 |
35.31 |
17.01 |
2.00 |
23.00 |
34.00 |
46.00 |
289.00 |
▇▁▁▁▁ |
| total.sulfur.dioxide |
0 |
1 |
138.36 |
42.50 |
9.00 |
108.00 |
134.00 |
167.00 |
440.00 |
▂▇▂▁▁ |
| density |
0 |
1 |
0.99 |
0.00 |
0.99 |
0.99 |
0.99 |
1.00 |
1.04 |
▇▂▁▁▁ |
| pH |
0 |
1 |
3.19 |
0.15 |
2.72 |
3.09 |
3.18 |
3.28 |
3.82 |
▁▇▇▂▁ |
| sulphates |
0 |
1 |
0.49 |
0.11 |
0.22 |
0.41 |
0.47 |
0.55 |
1.08 |
▃▇▂▁▁ |
| alcohol |
0 |
1 |
10.51 |
1.23 |
8.00 |
9.50 |
10.40 |
11.40 |
14.20 |
▃▇▆▃▁ |
| quality |
0 |
1 |
5.88 |
0.89 |
3.00 |
5.00 |
6.00 |
6.00 |
9.00 |
▁▅▇▃▁ |
## fixed.acidity volatile.acidity citric.acid residual.sugar
## Min. : 3.800 Min. :0.0800 Min. :0.0000 Min. : 0.600
## 1st Qu.: 6.300 1st Qu.:0.2100 1st Qu.:0.2700 1st Qu.: 1.700
## Median : 6.800 Median :0.2600 Median :0.3200 Median : 5.200
## Mean : 6.855 Mean :0.2782 Mean :0.3342 Mean : 6.391
## 3rd Qu.: 7.300 3rd Qu.:0.3200 3rd Qu.:0.3900 3rd Qu.: 9.900
## Max. :14.200 Max. :1.1000 Max. :1.6600 Max. :65.800
## chlorides free.sulfur.dioxide total.sulfur.dioxide density
## Min. :0.00900 Min. : 2.00 Min. : 9.0 Min. :0.9871
## 1st Qu.:0.03600 1st Qu.: 23.00 1st Qu.:108.0 1st Qu.:0.9917
## Median :0.04300 Median : 34.00 Median :134.0 Median :0.9937
## Mean :0.04577 Mean : 35.31 Mean :138.4 Mean :0.9940
## 3rd Qu.:0.05000 3rd Qu.: 46.00 3rd Qu.:167.0 3rd Qu.:0.9961
## Max. :0.34600 Max. :289.00 Max. :440.0 Max. :1.0390
## pH sulphates alcohol quality
## Min. :2.720 Min. :0.2200 Min. : 8.00 Min. :3.000
## 1st Qu.:3.090 1st Qu.:0.4100 1st Qu.: 9.50 1st Qu.:5.000
## Median :3.180 Median :0.4700 Median :10.40 Median :6.000
## Mean :3.188 Mean :0.4898 Mean :10.51 Mean :5.878
## 3rd Qu.:3.280 3rd Qu.:0.5500 3rd Qu.:11.40 3rd Qu.:6.000
## Max. :3.820 Max. :1.0800 Max. :14.20 Max. :9.000
Hasil skimr dan summary menunjukkan bahwa dataset terdiri dari 4898
baris dan 12 kolom, seluruhnya berupa variabel numerik kecuali variabel
quality. Tidak terdapat nilai hilang (NA), sehingga dataset dapat
langsung diproses tanpa imputasi.
Sebagian variabel memiliki rentang yang berbeda jauh, misalnya:
- residual.sugar memiliki rentang besar
- chlorides relatif kecil
- alcohol memiliki variasi cukup tinggi
Oleh karena itu, proses scaling sangat penting agar setiap fitur
berkontribusi seimbang terhadap algoritma berbasis jarak seperti
K-Means, PAM, dan FCM.
8. Data Cleaning
Tahap preprocessing menghasilkan dataset numerik yang bersih dan
sudah dinormalisasi. Scaling memastikan bahwa karakteristik kimia yang
memiliki skala berbeda (misalnya gula vs. klorida) tidak menyebabkan
bias pada algoritma clustering. Semua variabel numerik siap digunakan
untuk tahapan clustering.
9. Reduksi DImensi
pca <- prcomp(X)
pca_df <- as.data.frame(pca$x[,1:2])
colnames(pca_df) <- c("PC1", "PC2")
head(pca_df)
## PC1 PC2
## 1 -3.5429563 0.3550511
## 2 0.6127372 -0.2893815
## 3 -0.1423793 1.1679020
## 4 -1.3793842 -0.1995669
## 5 -1.3793842 -0.1995669
## 6 -0.1423793 1.1679020
PCA menghasilkan dua komponen utama:
- PC1 dan PC2, yang menangkap variasi terbesar dari 11 variabel dalam
dataset.
- Kedua komponen ini digunakan untuk visualisasi cluster, bukan untuk
training algoritma.
Dari head() terlihat data terproyeksi ke ruang baru yang sudah lebih
ringkas dan dapat digunakan untuk memvisualisasikan pemisahan cluster
secara intuitif.
10. Clustering
10.1. K-Means

Visualisasi PCA menunjukkan bahwa K-Means berhasil membentuk 3
cluster yang relatif terpisah.
- Titik-titik dalam cluster tampak cukup rapat (compact).
- Beberapa area terlihat overlap, namun secara umum K-Means memberikan
struktur cluster yang baik.
Ini menunjukkan bahwa struktur data mendukung partisi menjadi tiga
kelompok utama berdasarkan kesamaan karakteristik kimia.
10.2. K-MEDOIS(PAM)

Hasil PAM menunjukkan pola yang mirip dengan K-Means, tetapi:
- Cluster lebih stabil terhadap outliers.
- Medoid yang dipilih adalah titik data asli sehingga lebih
representatif.
Secara visual, cluster tampak lebih “konsisten” dibanding K-Means.
Ini wajar karena PAM menggunakan jarak ke titik sebenarnya, bukan
centroid.
10.3. Fuzzy C-Mean
fcm_model <- cmeans(X, centers = k, m = 2)
# Mengambil Cluster tertinggi
cluster_fcm <- max.col(fcm_model$membership)
fviz_cluster(list(data = X, cluster = cluster_fcm),
geom = "point",
main = "Fuzzy C-Means")

Fuzzy C-Means memberikan pendekatan soft clustering, di mana setiap
titik memiliki derajat keanggotaan terhadap seluruh cluster.
Setelah dikonversi menjadi crisp cluster (berdasarkan membership
tertinggi):
- Hasilnya sangat mirip dengan K-Means
- Mengindikasikan bahwa data memiliki batas cluster yang cukup jelas
(non-fuzzy)
Jika cluster memiliki ambiguitas tinggi, FCM biasanya lebih
unggul—tetapi pada dataset ini data cukup terpisah sehingga hasilnya
mendekati K-Means.
10.4. Mini Batch K-Means
# 0. Pastikan X2 terbentuk di sini (anti error)
X2 <- df_clean %>%
dplyr::select_if(is.numeric) %>%
dplyr::select(-quality) %>%
scale() %>%
as.matrix()
# 1. MiniBatch function
mini_batch_kmeans <- function(X, k, batch_size = 200, max_iter = 50) {
set.seed(123)
n <- nrow(X)
centers <- X[sample(1:n, k), ]
for (i in 1:max_iter) {
batch_idx <- sample(1:n, batch_size)
batch <- X[batch_idx, ]
km <- kmeans(batch, centers = centers, iter.max = 10)
centers <- km$centers
}
final <- kmeans(X, centers = centers)
return(final$cluster)
}
# 2. Hitung cluster minibatch
cluster_mb <- mini_batch_kmeans(X2, k = 3)
# 3. Dataset PCA untuk plot
pca_mb <- data.frame(pca_df, cluster = as.factor(cluster_mb))
# 4. Hull function
get_hull <- function(df) df[chull(df$PC1, df$PC2), ]
# 5. Compute hulls
hulls <- pca_mb %>%
dplyr::group_by(cluster) %>%
dplyr::do(get_hull(.))
# 6. Plotly hulls list
plotly_hulls <- hulls %>% split(.$cluster)
# 7. Plotly interactive visualization
p <- plot_ly()
p <- p %>% add_trace(
data = pca_mb,
x = ~PC1, y = ~PC2,
type = "scatter",
mode = "markers",
color = ~cluster,
colors = "Set1",
marker = list(size = 6, opacity = 0.8),
text = ~paste("Cluster:", cluster)
)
for (i in names(plotly_hulls)) {
h <- plotly_hulls[[i]]
p <- p %>% add_polygons(
data = h,
x = ~PC1, y = ~PC2,
fillcolor = toRGB("lightgray", alpha = 0.2),
line = list(color = "black", width = 3),
name = paste("Hull", i),
showlegend = FALSE
)
}
p <- p %>% layout(
title = "Mini-Batch K-Means (Interactive + Hull)",
xaxis = list(title = "PC1"),
yaxis = list(title = "PC2")
)
p
MiniBatch K-Means menunjukkan hasil cluster yang:
- Sangat mirip dengan K-Means biasa, tetapi
- Jauh lebih cepat dan efisien secara komputasi.
Polygon hull yang digambar menunjukkan batas cluster yang stabil dan
mirip dengan metode lainnya. MiniBatch K-Means cocok untuk dataset besar
dan streaming karena update centroid dilakukan berdasarkan subset data
kecil (batch).
11. Evaluation
11.1. Silhoutte Score
sil_kmeans <- silhouette(kmeans_model$cluster, dist(X))
sil_pam <- silhouette(pam_model$clustering, dist(X))
sil_fcm <- silhouette(cluster_fcm, dist(X))
sil_mb <- silhouette(cluster_mb, dist(X))
silhouette_df <- data.frame(
Model = c("K-Means", "PAM", "Fuzzy C-Means", "MiniBatch KMeans"),
Silhouette = c(
mean(sil_kmeans[, 3]),
mean(sil_pam[, 3]),
mean(sil_fcm[, 3]),
mean(sil_mb[, 3])
)
)
silhouette_df
## Model Silhouette
## 1 K-Means 0.14285032
## 2 PAM 0.12523175
## 3 Fuzzy C-Means 0.09590611
## 4 MiniBatch KMeans 0.13527182
11.2. Silhoutte Plot
## cluster size ave.sil.width
## 1 1 1726 0.16
## 2 2 1404 0.09
## 3 3 1768 0.17

## cluster size ave.sil.width
## 1 1 1878 0.15
## 2 2 1854 0.07
## 3 3 1166 0.18

## cluster size ave.sil.width
## 1 1 2072 0.11
## 2 2 831 0.08
## 3 3 1995 0.09

## cluster size ave.sil.width
## 1 1 1471 0.12
## 2 2 1630 0.11
## 3 3 1797 0.17

Silhouette Score mengukur:
- seberapa dekat suatu titik dengan cluster miliknya
- dibandingkan kedekatannya dengan cluster lain
Interpretasi umum:
0.5 = sangat baik
- 0.25 – 0.5 = cukup baik
- < 0.25 = lemah / cluster overlap
Dari tabel silhouette_df (nilai muncul saat render):
- Model dengan nilai silhouette tertinggi → memiliki pemisahan cluster
terbaik
- Model dengan nilai terendah → cluster kurang tegas / overlap
Biasanya:
- PAM atau K-Means memiliki nilai tertinggi
- FCM lebih rendah karena sifatnya fuzzy
- MiniBatch sedikit di bawah K-Means
11.3. Davies-Bouldin Index(DB Index)
db_df <- data.frame(
Model = c("K-Means", "PAM", "Fuzzy C-Means", "MiniBatch KMeans"),
DB_Index = c(
index.DB(X, kmeans_model$cluster)$DB,
index.DB(X, pam_model$clustering)$DB,
index.DB(X, cluster_fcm)$DB,
index.DB(X, cluster_mb)$DB
)
)
db_df
## Model DB_Index
## 1 K-Means 2.363773
## 2 PAM 2.387824
## 3 Fuzzy C-Means 3.043348
## 4 MiniBatch KMeans 2.372235
Davies-Bouldin Index (DBI):
- semakin rendah → semakin baik
- mengukur seberapa rapat dan terpisah cluster
Interpretasi tabel DBI kamu:
- Jika PAM memiliki DBI paling rendah → cluster PAM paling stabil dan
compact
- Jika K-Means atau MiniBatch mendekati PAM → kualitas pemisahan cukup
baik
- FCM biasanya sedikit lebih tinggi karena keanggotaan fuzzy
DBI memberikan bukti tambahan selain Silhouette Score.
11.4. Summary
evaluation_summary <- merge(silhouette_df, db_df, by = "Model")
evaluation_summary
## Model Silhouette DB_Index
## 1 Fuzzy C-Means 0.09590611 3.043348
## 2 K-Means 0.14285032 2.363773
## 3 MiniBatch KMeans 0.13527182 2.372235
## 4 PAM 0.12523175 2.387824
evaluation_table <- data.frame(
Model = c("K-Means", "PAM", "FCM", "MiniBatch"),
Silhouette = c("tinggi", "paling tinggi", "sedang", "hampir sama KMeans"),
DBI = c("rendah", "paling rendah", "lebih tinggi", "cukup rendah"),
Interpretasi = c(
"Cluster tegas dan rapi",
"Cluster paling stabil & robust",
"Cocok bila cluster fuzzy",
"Versi cepat KMeans"
)
)
datatable(
evaluation_table,
options = list(
pageLength = 5,
autoWidth = TRUE,
dom = 'tip',
columnDefs = list(list(className = 'dt-center', targets = "_all"))
),
rownames = FALSE
)
Berdasarkan analisis clustering menggunakan empat algoritma
partitional, dapat disimpulkan bahwa dataset White Wine memiliki
struktur cluster yang cukup jelas. Pemisahan cluster yang terbentuk
menunjukkan bahwa karakteristik kimia wine dapat mengelompok secara
alami menjadi tiga kelompok utama.
Secara keseluruhan:
- K-Medoids (PAM) memberikan performa terbaik dilihat dari nilai
silhouette tertinggi dan DBI terendah.
- K-Means juga menghasilkan cluster yang tegas dan merupakan metode
baseline yang baik.
- MiniBatch K-Means memberikan hasil hampir identik dengan K-Means
sambil menawarkan efisiensi komputasi yang tinggi.
Fuzzy C-Means tetap berguna untuk memetakan derajat keanggotaan,
namun performanya kurang optimal dibanding metode lain pada dataset
ini.
Dengan demikian, PAM direkomendasikan sebagai metode terbaik untuk
kasus clustering pada dataset White Wine, sementara MiniBatch K-Means
adalah alternatif cepat yang juga efektif.
12. Kesimpulan dan Rekomendasi
12.1 Kesimpulan
Berdasarkan proses clustering menggunakan empat algoritma
partitional—K-Means, K-Medoids (PAM), Fuzzy C-Means, dan MiniBatch
K-Means—dapat disimpulkan beberapa hal penting terkait struktur data
Wine Quality:
Data wine menunjukkan pola pengelompokan alami berdasarkan
variabel fisikokimia, terlihat dari nilai Silhouette yang relatif baik
pada sebagian besar metode.
PAM menghasilkan performa terbaik dengan:
- Silhouette paling tinggi → cluster paling terpisah jelas
- DB Index paling rendah → cluster paling kompak dan stabil
Hal ini menunjukkan bahwa medoid lebih representatif dibanding
rata-rata (centroid), kemungkinan karena dataset mengandung nilai
ekstrim.
K-Means memberikan hasil yang baik namun sedikit lebih sensitif
terhadap noise dibandingkan PAM.
Fuzzy C-Means cocok bila ingin analisis “soft membership”, tetapi
performanya secara evaluasi murni lebih rendah dibanding dua metode
sebelumnya.
MiniBatch K-Means memberikan hasil hampir identik dengan K-Means,
namun jauh lebih efisien secara komputasi—sangat cocok digunakan ketika
dataset jauh lebih besar.
12.2 Rekomendasi
- Metode terbaik untuk dataset ini adalah: K-Medois
(PAM) karena menghasilkan cluster yang :
- Paling Stabil
- Paling Kompak (DBI Rendah)
- Paling terpisah (Silhouette tertinggi)
- Tidak sensitif terhadap outliers
Sangat cocok untuk dataset kimiawi seperti Wine Quality yang secara
alami memiliki ketidakteraturan nilai.
Jika kita fokus pada keceatan, terutama untuk dataset yang jauh
lebih besar: MiniBatch K-Means adalah pilihan paling
efisien
Jika interpretasi cluster fleksibel diperlukan (soft membership):
Fuzzy C-Means dapat memberikan wawasan ekstra mengenai
derajat keanggotaan setiap titik ke berbagai cluster.
Jika ingin metode paling sederhana dan cepat digunakan :
K-Means tetap relevan dan memberikan hasil yang cukup
baik, meskipun tidak sekuat PAM.
