Model Based Clustering

Model-based clustering adalah metode pengelompokan data yang didasarkan pada asumsi bahwa data dihasilkan oleh campuran beberapa model probabilistik, di mana setiap model merepresentasikan satu cluster.

Gaussian Mixture Model (GMM)

Gaussian Mixture Model adalah metode clustering berbasis probabilistik yang mengasumsikan bahwa data berasal dari campuran beberapa distribusi Gaussian (normal)

Setiap cluster direpresentasikan oleh:

  • vektor mean (μ),
  • matriks covariance (Σ),
  • bobot campuran (π) dari setiap komponen Gaussian.

GMM menghasilkan soft clustering, yaitu probabilitas keanggotaan setiap data dalam setiap cluster, bukan penetapan label secara tegas.

Model Matematis

GMM memodelkan data sebagai campuran beberapa distribusi Gaussian. Misalkan terdapat ( K ) cluster, maka distribusi campuran dituliskan sebagai:

\[ p(x)=\sum_{k=1}^{K}π_k,N(x∣μ_kΣ_k ) \]

dengan:

  • \((\pi_k)\) = mixing coefficient untuk cluster ke-\(k\)

\[ \sum_{k=1}^{K} \pi_k = 1, \quad \pi_k \geq 0 \]

  • \((\mu_k)\) = mean vector dari cluster ke-\(k\)
  • \((\Sigma_k)\) = matriks kovarians dari cluster ke-\(k\)
  • \(\mathcal{N}(x|\mu, \Sigma)\) = fungsi densitas Gaussian multivariat:

\[ \mathcal{N}(x|\mu, \Sigma) = \frac{1}{(2\pi)^{d/2} |\Sigma|^{1/2}} \exp \left( -\frac{1}{2}(x - \mu)^T \Sigma^{-1} (x - \mu) \right) \]

Parameter GMM \((\pi_k, \mu_k, \Sigma_k)\) diperkirakan menggunakan algoritma Expectation-Maximization (EM).

Kelebihan & Keterbatasan

Kelebihan:

  • Melakukan soft clustering, sehingga cocok untuk data dengan batas cluster yang tidak tegas.
  • Dapat membentuk cluster dengan bentuk elips, tidak sekadar bulat seperti k-means.
  • Fleksibel karena mendukung berbagai jenis matriks kovarian (full, diag, tied, spherical).
  • Menghasilkan probabilitas keanggotaan yang dapat digunakan untuk interpretasi lebih kaya.

Keterbatasan:

  • Membutuhkan asumsi bahwa data mengikuti distribusi Gaussian, sehingga dapat gagal pada distribusi sangat tidak normal.
  • Sensitif terhadap inisialisasi dan dapat konvergen ke local optimum.
  • Tidak cocok untuk dataset sangat besar tanpa optimasi tambahan.
  • Perlu menentukan jumlah cluster (K) di awal (tidak otomatis).

Gaussian Mixture Model (GMM) - Dataset Iris

Persiapan Data

library(mclust)
data(iris)
data_cluster <- iris[,1:2]  # Semua Sepal.Length & Width

# Fit model GMM
gmm_model <- Mclust(data_cluster, G=1:3)
summary(gmm_model)
## ---------------------------------------------------- 
## Gaussian finite mixture model fitted by EM algorithm 
## ---------------------------------------------------- 
## 
## Mclust VEV (ellipsoidal, equal shape) model with 2 components: 
## 
##  log-likelihood   n df       BIC       ICL
##       -225.9262 150 10 -501.9588 -503.6288
## 
## Clustering table:
##   1   2 
##  49 101
plot(gmm_model, what="classification")

Interpretasi:

Visualisasi menunjukkan bahwa cluster pertama terpisah dengan cukup jelas dari cluster kedua, sedangkan cluster kedua mencakup data yang lebih beragam dan saling tumpang tindih. Hal ini mengindikasikan bahwa terdapat perbedaan karakteristik yang cukup signifikan antara satu kelompok dengan kelompok lainnya, namun tidak cukup kuat untuk memisahkan seluruh data menjadi tiga cluster yang berbeda.

LS0tDQp0aXRsZTogIk1vZGVsIEJhc2VkIENsdXN0ZXJpbmciDQphdXRob3I6ICJSYWZseSBQcml5YW50YW1hIFJhbWFkaGFuIEJhZ2Fza2FyYSINCmRhdGU6ICJgciBTeXMuRGF0ZSgpYCINCm91dHB1dDoNCiAgaHRtbF9kb2N1bWVudDoNCiAgICB0b2M6IHRydWUNCiAgICB0b2NfZmxvYXQ6IHRydWUNCiAgICBkZl9wcmludDogInBhZ2VkIg0KICAgIGNvZGVfZm9sZGluZzogImhpZGUiDQogICAgY29kZV9kb3dubG9hZDogeWVzDQotLS0NCg0KYGBge3Igc2V0dXAsIGluY2x1ZGU9RkFMU0V9DQprbml0cjo6b3B0c19jaHVuayRzZXQoZWNobyA9IFRSVUUsIA0KICAgICAgICAgICAgICAgICAgICAgIHdhcm5pbmcgPSBGQUxTRSwgDQogICAgICAgICAgICAgICAgICAgICAgbWVzc2FnZSA9IEZBTFNFLA0KICAgICAgICAgICAgICAgICAgICAgIGZpZy53aWR0aCA9IDgsIA0KICAgICAgICAgICAgICAgICAgICAgIGZpZy5oZWlnaHQgPSA2LA0KICAgICAgICAgICAgICAgICAgICAgIGZpZy5hbGlnbiA9ICdjZW50ZXInKQ0KbGlicmFyeShtY2x1c3QpDQpsaWJyYXJ5KHBvTENBKQ0KbGlicmFyeShnZ3Bsb3QyKQ0KbGlicmFyeShkcGx5cikNCmxpYnJhcnkocmVzaGFwZTIpDQpsaWJyYXJ5KGdyaWRFeHRyYSkNCmBgYA0KDQojICoqTW9kZWwgQmFzZWQgQ2x1c3RlcmluZyoqDQpNb2RlbC1iYXNlZCBjbHVzdGVyaW5nIGFkYWxhaCBtZXRvZGUgcGVuZ2Vsb21wb2thbiBkYXRhIHlhbmcgZGlkYXNhcmthbiBwYWRhIGFzdW1zaSBiYWh3YSBkYXRhIGRpaGFzaWxrYW4gb2xlaCBjYW1wdXJhbiBiZWJlcmFwYSBtb2RlbCBwcm9iYWJpbGlzdGlrLCBkaSBtYW5hIHNldGlhcCBtb2RlbCBtZXJlcHJlc2VudGFzaWthbiBzYXR1IGNsdXN0ZXIuDQoNCiMjICoqR2F1c3NpYW4gTWl4dHVyZSBNb2RlbCAoR01NKSoqDQoNCioqR2F1c3NpYW4gTWl4dHVyZSBNb2RlbCoqIGFkYWxhaCBtZXRvZGUgY2x1c3RlcmluZyBiZXJiYXNpcyBwcm9iYWJpbGlzdGlrIHlhbmcgbWVuZ2FzdW1zaWthbiBiYWh3YSBkYXRhIGJlcmFzYWwgZGFyaSBjYW1wdXJhbiBiZWJlcmFwYSBkaXN0cmlidXNpIEdhdXNzaWFuIChub3JtYWwpDQoNClNldGlhcCBjbHVzdGVyIGRpcmVwcmVzZW50YXNpa2FuIG9sZWg6DQoNCi0gICB2ZWt0b3IgKiptZWFuKiogKM68KSwNCi0gICBtYXRyaWtzICoqY292YXJpYW5jZSoqICjOoyksDQotICAgYm9ib3QgY2FtcHVyYW4gKM+AKSBkYXJpIHNldGlhcCBrb21wb25lbiBHYXVzc2lhbi4NCg0KR01NIG1lbmdoYXNpbGthbiAqKnNvZnQgY2x1c3RlcmluZyoqLCB5YWl0dSBwcm9iYWJpbGl0YXMga2Vhbmdnb3RhYW4gc2V0aWFwIGRhdGEgZGFsYW0gc2V0aWFwIGNsdXN0ZXIsIGJ1a2FuIHBlbmV0YXBhbiBsYWJlbCBzZWNhcmEgdGVnYXMuDQoNCiMjIyAqKk1vZGVsIE1hdGVtYXRpcyoqDQoNCkdNTSBtZW1vZGVsa2FuIGRhdGEgc2ViYWdhaSBjYW1wdXJhbiBiZWJlcmFwYSBkaXN0cmlidXNpIEdhdXNzaWFuLiBNaXNhbGthbiB0ZXJkYXBhdCAoIEsgKSBjbHVzdGVyLCBtYWthIGRpc3RyaWJ1c2kgY2FtcHVyYW4gZGl0dWxpc2thbiBzZWJhZ2FpOg0KDQokJA0KcCh4KT1cc3VtX3trPTF9XntLfc+AX2ssTih44oijzrxfa86jX2sgICkNCiQkDQoNCmRlbmdhbjoNCg0KLSAgICQoXHBpX2spJCA9IG1peGluZyBjb2VmZmljaWVudCB1bnR1ayBjbHVzdGVyIGtlLSRrJA0KDQokJCANClxzdW1fe2s9MX1ee0t9IFxwaV9rID0gMSwgXHF1YWQgXHBpX2sgXGdlcSAwDQokJA0KDQotICAgJChcbXVfaykkID0gbWVhbiB2ZWN0b3IgZGFyaSBjbHVzdGVyIGtlLSRrJA0KLSAgICQoXFNpZ21hX2spJCA9IG1hdHJpa3Mga292YXJpYW5zIGRhcmkgY2x1c3RlciBrZS0kayQNCi0gICAkXG1hdGhjYWx7Tn0oeHxcbXUsIFxTaWdtYSkkID0gZnVuZ3NpIGRlbnNpdGFzIEdhdXNzaWFuIG11bHRpdmFyaWF0Og0KDQokJA0KICBcbWF0aGNhbHtOfSh4fFxtdSwgXFNpZ21hKSA9DQogIFxmcmFjezF9eygyXHBpKV57ZC8yfSB8XFNpZ21hfF57MS8yfX0NCiAgXGV4cCBcbGVmdCgNCiAgLVxmcmFjezF9ezJ9KHggLSBcbXUpXlQgXFNpZ21hXnstMX0gKHggLSBcbXUpDQogIFxyaWdodCkNCiQkDQoNClBhcmFtZXRlciBHTU0gJChccGlfaywgXG11X2ssIFxTaWdtYV9rKSQgZGlwZXJraXJha2FuIG1lbmdndW5ha2FuIGFsZ29yaXRtYSAqKkV4cGVjdGF0aW9uLU1heGltaXphdGlvbiAoRU0pKiouDQoNCiMjIyAqKktlbGViaWhhbiAmIEtldGVyYmF0YXNhbioqDQoNCioqS2VsZWJpaGFuOioqDQoNCi0gICBNZWxha3VrYW4gc29mdCBjbHVzdGVyaW5nLCBzZWhpbmdnYSBjb2NvayB1bnR1ayBkYXRhIGRlbmdhbiBiYXRhcyBjbHVzdGVyIHlhbmcgdGlkYWsgdGVnYXMuDQotICAgRGFwYXQgbWVtYmVudHVrIGNsdXN0ZXIgZGVuZ2FuIGJlbnR1ayBlbGlwcywgdGlkYWsgc2VrYWRhciBidWxhdCBzZXBlcnRpIGstbWVhbnMuDQotICAgRmxla3NpYmVsIGthcmVuYSBtZW5kdWt1bmcgYmVyYmFnYWkgamVuaXMgbWF0cmlrcyBrb3ZhcmlhbiAoZnVsbCwgZGlhZywgdGllZCwgc3BoZXJpY2FsKS4NCi0gICBNZW5naGFzaWxrYW4gcHJvYmFiaWxpdGFzIGtlYW5nZ290YWFuIHlhbmcgZGFwYXQgZGlndW5ha2FuIHVudHVrIGludGVycHJldGFzaSBsZWJpaCBrYXlhLg0KDQoqKktldGVyYmF0YXNhbjoqKg0KDQotICAgTWVtYnV0dWhrYW4gYXN1bXNpIGJhaHdhIGRhdGEgbWVuZ2lrdXRpIGRpc3RyaWJ1c2kgR2F1c3NpYW4sIHNlaGluZ2dhIGRhcGF0IGdhZ2FsIHBhZGEgZGlzdHJpYnVzaSBzYW5nYXQgdGlkYWsgbm9ybWFsLg0KLSAgIFNlbnNpdGlmIHRlcmhhZGFwIGluaXNpYWxpc2FzaSBkYW4gZGFwYXQga29udmVyZ2VuIGtlIGxvY2FsIG9wdGltdW0uDQotICAgVGlkYWsgY29jb2sgdW50dWsgZGF0YXNldCBzYW5nYXQgYmVzYXIgdGFucGEgb3B0aW1hc2kgdGFtYmFoYW4uDQotICAgUGVybHUgbWVuZW50dWthbiBqdW1sYWggY2x1c3RlciAoSykgZGkgYXdhbCAodGlkYWsgb3RvbWF0aXMpLg0KDQojIyMgKipHYXVzc2lhbiBNaXh0dXJlIE1vZGVsIChHTU0pIC0gRGF0YXNldCBJcmlzKioNCg0KIyMjIyAqKlBlcnNpYXBhbiBEYXRhKioNCg0KYGBge3J9DQpsaWJyYXJ5KG1jbHVzdCkNCmRhdGEoaXJpcykNCmRhdGFfY2x1c3RlciA8LSBpcmlzWywxOjJdICAjIFNlbXVhIFNlcGFsLkxlbmd0aCAmIFdpZHRoDQoNCiMgRml0IG1vZGVsIEdNTQ0KZ21tX21vZGVsIDwtIE1jbHVzdChkYXRhX2NsdXN0ZXIsIEc9MTozKQ0Kc3VtbWFyeShnbW1fbW9kZWwpDQpwbG90KGdtbV9tb2RlbCwgd2hhdD0iY2xhc3NpZmljYXRpb24iKQ0KYGBgDQoNCioqSW50ZXJwcmV0YXNpOioqDQoNClZpc3VhbGlzYXNpIG1lbnVuanVra2FuIGJhaHdhIGNsdXN0ZXIgcGVydGFtYSB0ZXJwaXNhaCBkZW5nYW4gY3VrdXAgamVsYXMgZGFyaSBjbHVzdGVyIGtlZHVhLCBzZWRhbmdrYW4gY2x1c3RlciBrZWR1YSBtZW5jYWt1cCBkYXRhIHlhbmcgbGViaWggYmVyYWdhbSBkYW4gc2FsaW5nIHR1bXBhbmcgdGluZGloLiBIYWwgaW5pIG1lbmdpbmRpa2FzaWthbiBiYWh3YSB0ZXJkYXBhdCBwZXJiZWRhYW4ga2FyYWt0ZXJpc3RpayB5YW5nIGN1a3VwIHNpZ25pZmlrYW4gYW50YXJhIHNhdHUga2Vsb21wb2sgZGVuZ2FuIGtlbG9tcG9rIGxhaW5ueWEsIG5hbXVuIHRpZGFrIGN1a3VwIGt1YXQgdW50dWsgbWVtaXNhaGthbiBzZWx1cnVoIGRhdGEgbWVuamFkaSB0aWdhIGNsdXN0ZXIgeWFuZyBiZXJiZWRhLg0KDQoNCg0K