Model Based Clustering
Model-based clustering adalah metode pengelompokan data yang
didasarkan pada asumsi bahwa data dihasilkan oleh campuran beberapa
model probabilistik, di mana setiap model merepresentasikan satu
cluster.
Gaussian Mixture Model (GMM)
Gaussian Mixture Model adalah metode clustering
berbasis probabilistik yang mengasumsikan bahwa data berasal dari
campuran beberapa distribusi Gaussian (normal)
Setiap cluster direpresentasikan oleh:
- vektor mean (μ),
- matriks covariance (Σ),
- bobot campuran (π) dari setiap komponen Gaussian.
GMM menghasilkan soft clustering, yaitu probabilitas
keanggotaan setiap data dalam setiap cluster, bukan penetapan label
secara tegas.
Model Matematis
GMM memodelkan data sebagai campuran beberapa distribusi Gaussian.
Misalkan terdapat ( K ) cluster, maka distribusi campuran dituliskan
sebagai:
\[
p(x)=\sum_{k=1}^{K}π_k,N(x∣μ_kΣ_k )
\]
dengan:
- \((\pi_k)\) = mixing coefficient
untuk cluster ke-\(k\)
\[
\sum_{k=1}^{K} \pi_k = 1, \quad \pi_k \geq 0
\]
- \((\mu_k)\) = mean vector dari
cluster ke-\(k\)
- \((\Sigma_k)\) = matriks kovarians
dari cluster ke-\(k\)
- \(\mathcal{N}(x|\mu, \Sigma)\) =
fungsi densitas Gaussian multivariat:
\[
\mathcal{N}(x|\mu, \Sigma) =
\frac{1}{(2\pi)^{d/2} |\Sigma|^{1/2}}
\exp \left(
-\frac{1}{2}(x - \mu)^T \Sigma^{-1} (x - \mu)
\right)
\]
Parameter GMM \((\pi_k, \mu_k,
\Sigma_k)\) diperkirakan menggunakan algoritma
Expectation-Maximization (EM).
Kelebihan & Keterbatasan
Kelebihan:
- Melakukan soft clustering, sehingga cocok untuk data dengan batas
cluster yang tidak tegas.
- Dapat membentuk cluster dengan bentuk elips, tidak sekadar bulat
seperti k-means.
- Fleksibel karena mendukung berbagai jenis matriks kovarian (full,
diag, tied, spherical).
- Menghasilkan probabilitas keanggotaan yang dapat digunakan untuk
interpretasi lebih kaya.
Keterbatasan:
- Membutuhkan asumsi bahwa data mengikuti distribusi Gaussian,
sehingga dapat gagal pada distribusi sangat tidak normal.
- Sensitif terhadap inisialisasi dan dapat konvergen ke local
optimum.
- Tidak cocok untuk dataset sangat besar tanpa optimasi tambahan.
- Perlu menentukan jumlah cluster (K) di awal (tidak otomatis).
Gaussian Mixture Model (GMM) - Dataset Iris
Persiapan Data
library(mclust)
data(iris)
data_cluster <- iris[,1:2] # Semua Sepal.Length & Width
# Fit model GMM
gmm_model <- Mclust(data_cluster, G=1:3)
summary(gmm_model)
## ----------------------------------------------------
## Gaussian finite mixture model fitted by EM algorithm
## ----------------------------------------------------
##
## Mclust VEV (ellipsoidal, equal shape) model with 2 components:
##
## log-likelihood n df BIC ICL
## -225.9262 150 10 -501.9588 -503.6288
##
## Clustering table:
## 1 2
## 49 101
plot(gmm_model, what="classification")

Interpretasi:
Visualisasi menunjukkan bahwa cluster pertama terpisah dengan cukup
jelas dari cluster kedua, sedangkan cluster kedua mencakup data yang
lebih beragam dan saling tumpang tindih. Hal ini mengindikasikan bahwa
terdapat perbedaan karakteristik yang cukup signifikan antara satu
kelompok dengan kelompok lainnya, namun tidak cukup kuat untuk
memisahkan seluruh data menjadi tiga cluster yang berbeda.
LS0tDQp0aXRsZTogIk1vZGVsIEJhc2VkIENsdXN0ZXJpbmciDQphdXRob3I6ICJSYWZseSBQcml5YW50YW1hIFJhbWFkaGFuIEJhZ2Fza2FyYSINCmRhdGU6ICJgciBTeXMuRGF0ZSgpYCINCm91dHB1dDoNCiAgaHRtbF9kb2N1bWVudDoNCiAgICB0b2M6IHRydWUNCiAgICB0b2NfZmxvYXQ6IHRydWUNCiAgICBkZl9wcmludDogInBhZ2VkIg0KICAgIGNvZGVfZm9sZGluZzogImhpZGUiDQogICAgY29kZV9kb3dubG9hZDogeWVzDQotLS0NCg0KYGBge3Igc2V0dXAsIGluY2x1ZGU9RkFMU0V9DQprbml0cjo6b3B0c19jaHVuayRzZXQoZWNobyA9IFRSVUUsIA0KICAgICAgICAgICAgICAgICAgICAgIHdhcm5pbmcgPSBGQUxTRSwgDQogICAgICAgICAgICAgICAgICAgICAgbWVzc2FnZSA9IEZBTFNFLA0KICAgICAgICAgICAgICAgICAgICAgIGZpZy53aWR0aCA9IDgsIA0KICAgICAgICAgICAgICAgICAgICAgIGZpZy5oZWlnaHQgPSA2LA0KICAgICAgICAgICAgICAgICAgICAgIGZpZy5hbGlnbiA9ICdjZW50ZXInKQ0KbGlicmFyeShtY2x1c3QpDQpsaWJyYXJ5KHBvTENBKQ0KbGlicmFyeShnZ3Bsb3QyKQ0KbGlicmFyeShkcGx5cikNCmxpYnJhcnkocmVzaGFwZTIpDQpsaWJyYXJ5KGdyaWRFeHRyYSkNCmBgYA0KDQojICoqTW9kZWwgQmFzZWQgQ2x1c3RlcmluZyoqDQpNb2RlbC1iYXNlZCBjbHVzdGVyaW5nIGFkYWxhaCBtZXRvZGUgcGVuZ2Vsb21wb2thbiBkYXRhIHlhbmcgZGlkYXNhcmthbiBwYWRhIGFzdW1zaSBiYWh3YSBkYXRhIGRpaGFzaWxrYW4gb2xlaCBjYW1wdXJhbiBiZWJlcmFwYSBtb2RlbCBwcm9iYWJpbGlzdGlrLCBkaSBtYW5hIHNldGlhcCBtb2RlbCBtZXJlcHJlc2VudGFzaWthbiBzYXR1IGNsdXN0ZXIuDQoNCiMjICoqR2F1c3NpYW4gTWl4dHVyZSBNb2RlbCAoR01NKSoqDQoNCioqR2F1c3NpYW4gTWl4dHVyZSBNb2RlbCoqIGFkYWxhaCBtZXRvZGUgY2x1c3RlcmluZyBiZXJiYXNpcyBwcm9iYWJpbGlzdGlrIHlhbmcgbWVuZ2FzdW1zaWthbiBiYWh3YSBkYXRhIGJlcmFzYWwgZGFyaSBjYW1wdXJhbiBiZWJlcmFwYSBkaXN0cmlidXNpIEdhdXNzaWFuIChub3JtYWwpDQoNClNldGlhcCBjbHVzdGVyIGRpcmVwcmVzZW50YXNpa2FuIG9sZWg6DQoNCi0gICB2ZWt0b3IgKiptZWFuKiogKM68KSwNCi0gICBtYXRyaWtzICoqY292YXJpYW5jZSoqICjOoyksDQotICAgYm9ib3QgY2FtcHVyYW4gKM+AKSBkYXJpIHNldGlhcCBrb21wb25lbiBHYXVzc2lhbi4NCg0KR01NIG1lbmdoYXNpbGthbiAqKnNvZnQgY2x1c3RlcmluZyoqLCB5YWl0dSBwcm9iYWJpbGl0YXMga2Vhbmdnb3RhYW4gc2V0aWFwIGRhdGEgZGFsYW0gc2V0aWFwIGNsdXN0ZXIsIGJ1a2FuIHBlbmV0YXBhbiBsYWJlbCBzZWNhcmEgdGVnYXMuDQoNCiMjIyAqKk1vZGVsIE1hdGVtYXRpcyoqDQoNCkdNTSBtZW1vZGVsa2FuIGRhdGEgc2ViYWdhaSBjYW1wdXJhbiBiZWJlcmFwYSBkaXN0cmlidXNpIEdhdXNzaWFuLiBNaXNhbGthbiB0ZXJkYXBhdCAoIEsgKSBjbHVzdGVyLCBtYWthIGRpc3RyaWJ1c2kgY2FtcHVyYW4gZGl0dWxpc2thbiBzZWJhZ2FpOg0KDQokJA0KcCh4KT1cc3VtX3trPTF9XntLfc+AX2ssTih44oijzrxfa86jX2sgICkNCiQkDQoNCmRlbmdhbjoNCg0KLSAgICQoXHBpX2spJCA9IG1peGluZyBjb2VmZmljaWVudCB1bnR1ayBjbHVzdGVyIGtlLSRrJA0KDQokJCANClxzdW1fe2s9MX1ee0t9IFxwaV9rID0gMSwgXHF1YWQgXHBpX2sgXGdlcSAwDQokJA0KDQotICAgJChcbXVfaykkID0gbWVhbiB2ZWN0b3IgZGFyaSBjbHVzdGVyIGtlLSRrJA0KLSAgICQoXFNpZ21hX2spJCA9IG1hdHJpa3Mga292YXJpYW5zIGRhcmkgY2x1c3RlciBrZS0kayQNCi0gICAkXG1hdGhjYWx7Tn0oeHxcbXUsIFxTaWdtYSkkID0gZnVuZ3NpIGRlbnNpdGFzIEdhdXNzaWFuIG11bHRpdmFyaWF0Og0KDQokJA0KICBcbWF0aGNhbHtOfSh4fFxtdSwgXFNpZ21hKSA9DQogIFxmcmFjezF9eygyXHBpKV57ZC8yfSB8XFNpZ21hfF57MS8yfX0NCiAgXGV4cCBcbGVmdCgNCiAgLVxmcmFjezF9ezJ9KHggLSBcbXUpXlQgXFNpZ21hXnstMX0gKHggLSBcbXUpDQogIFxyaWdodCkNCiQkDQoNClBhcmFtZXRlciBHTU0gJChccGlfaywgXG11X2ssIFxTaWdtYV9rKSQgZGlwZXJraXJha2FuIG1lbmdndW5ha2FuIGFsZ29yaXRtYSAqKkV4cGVjdGF0aW9uLU1heGltaXphdGlvbiAoRU0pKiouDQoNCiMjIyAqKktlbGViaWhhbiAmIEtldGVyYmF0YXNhbioqDQoNCioqS2VsZWJpaGFuOioqDQoNCi0gICBNZWxha3VrYW4gc29mdCBjbHVzdGVyaW5nLCBzZWhpbmdnYSBjb2NvayB1bnR1ayBkYXRhIGRlbmdhbiBiYXRhcyBjbHVzdGVyIHlhbmcgdGlkYWsgdGVnYXMuDQotICAgRGFwYXQgbWVtYmVudHVrIGNsdXN0ZXIgZGVuZ2FuIGJlbnR1ayBlbGlwcywgdGlkYWsgc2VrYWRhciBidWxhdCBzZXBlcnRpIGstbWVhbnMuDQotICAgRmxla3NpYmVsIGthcmVuYSBtZW5kdWt1bmcgYmVyYmFnYWkgamVuaXMgbWF0cmlrcyBrb3ZhcmlhbiAoZnVsbCwgZGlhZywgdGllZCwgc3BoZXJpY2FsKS4NCi0gICBNZW5naGFzaWxrYW4gcHJvYmFiaWxpdGFzIGtlYW5nZ290YWFuIHlhbmcgZGFwYXQgZGlndW5ha2FuIHVudHVrIGludGVycHJldGFzaSBsZWJpaCBrYXlhLg0KDQoqKktldGVyYmF0YXNhbjoqKg0KDQotICAgTWVtYnV0dWhrYW4gYXN1bXNpIGJhaHdhIGRhdGEgbWVuZ2lrdXRpIGRpc3RyaWJ1c2kgR2F1c3NpYW4sIHNlaGluZ2dhIGRhcGF0IGdhZ2FsIHBhZGEgZGlzdHJpYnVzaSBzYW5nYXQgdGlkYWsgbm9ybWFsLg0KLSAgIFNlbnNpdGlmIHRlcmhhZGFwIGluaXNpYWxpc2FzaSBkYW4gZGFwYXQga29udmVyZ2VuIGtlIGxvY2FsIG9wdGltdW0uDQotICAgVGlkYWsgY29jb2sgdW50dWsgZGF0YXNldCBzYW5nYXQgYmVzYXIgdGFucGEgb3B0aW1hc2kgdGFtYmFoYW4uDQotICAgUGVybHUgbWVuZW50dWthbiBqdW1sYWggY2x1c3RlciAoSykgZGkgYXdhbCAodGlkYWsgb3RvbWF0aXMpLg0KDQojIyMgKipHYXVzc2lhbiBNaXh0dXJlIE1vZGVsIChHTU0pIC0gRGF0YXNldCBJcmlzKioNCg0KIyMjIyAqKlBlcnNpYXBhbiBEYXRhKioNCg0KYGBge3J9DQpsaWJyYXJ5KG1jbHVzdCkNCmRhdGEoaXJpcykNCmRhdGFfY2x1c3RlciA8LSBpcmlzWywxOjJdICAjIFNlbXVhIFNlcGFsLkxlbmd0aCAmIFdpZHRoDQoNCiMgRml0IG1vZGVsIEdNTQ0KZ21tX21vZGVsIDwtIE1jbHVzdChkYXRhX2NsdXN0ZXIsIEc9MTozKQ0Kc3VtbWFyeShnbW1fbW9kZWwpDQpwbG90KGdtbV9tb2RlbCwgd2hhdD0iY2xhc3NpZmljYXRpb24iKQ0KYGBgDQoNCioqSW50ZXJwcmV0YXNpOioqDQoNClZpc3VhbGlzYXNpIG1lbnVuanVra2FuIGJhaHdhIGNsdXN0ZXIgcGVydGFtYSB0ZXJwaXNhaCBkZW5nYW4gY3VrdXAgamVsYXMgZGFyaSBjbHVzdGVyIGtlZHVhLCBzZWRhbmdrYW4gY2x1c3RlciBrZWR1YSBtZW5jYWt1cCBkYXRhIHlhbmcgbGViaWggYmVyYWdhbSBkYW4gc2FsaW5nIHR1bXBhbmcgdGluZGloLiBIYWwgaW5pIG1lbmdpbmRpa2FzaWthbiBiYWh3YSB0ZXJkYXBhdCBwZXJiZWRhYW4ga2FyYWt0ZXJpc3RpayB5YW5nIGN1a3VwIHNpZ25pZmlrYW4gYW50YXJhIHNhdHUga2Vsb21wb2sgZGVuZ2FuIGtlbG9tcG9rIGxhaW5ueWEsIG5hbXVuIHRpZGFrIGN1a3VwIGt1YXQgdW50dWsgbWVtaXNhaGthbiBzZWx1cnVoIGRhdGEgbWVuamFkaSB0aWdhIGNsdXN0ZXIgeWFuZyBiZXJiZWRhLg0KDQoNCg0K