LAPORAN ANALISIS CLUSTERING HYBRID
Nama: Nabila Anggita Putri
Program Studi: S1 - Sains Data
Dosen Pengampu: Mr. Bakti Siregar, M.Sc., CDS.,
Institusi: Institut Teknologi Sains Bandung
1. Pendahuluan
Clustering merupakan salah satu teknik fundamental dalam unsupervised learning yang bertujuan untuk mengelompokkan objek data ke dalam beberapa kelompok (cluster) berdasarkan tingkat kemiripan tertentu, tanpa memanfaatkan label kelas yang telah diketahui sebelumnya. Teknik ini banyak digunakan dalam berbagai bidang, seperti segmentasi pelanggan, analisis perilaku konsumen, bioinformatika, serta analisis data eksploratif, karena kemampuannya dalam mengungkap pola dan struktur tersembunyi pada data.
Meskipun demikian, penerapan clustering pada data dunia nyata sering menghadapi berbagai tantangan. Satu algoritma clustering tunggal umumnya memiliki keterbatasan, baik dari sisi asumsi matematis, sensitivitas terhadap noise dan outlier, maupun ketergantungan pada parameter tertentu seperti jumlah cluster. Akibatnya, hasil clustering yang diperoleh sering kali kurang stabil, sulit diinterpretasikan, atau tidak optimal ketika diterapkan pada data dengan struktur kompleks dan heterogen.
Untuk mengatasi permasalahan tersebut, dikembangkan pendekatan clustering hybrid, yaitu pendekatan yang mengombinasikan atau memperkaya metode clustering konvensional dengan mekanisme tambahan guna meningkatkan kualitas hasil pengelompokan. Pendekatan clustering hybrid dalam penelitian ini mencakup tiga strategi utama, yaitu:
1. Ensemble Clustering, yang menggabungkan hasil dari beberapa algoritma clustering berbeda untuk menghasilkan solusi konsensus yang lebih stabil dan robust terhadap variasi algoritma maupun inisialisasi.
2. Constraint-Based Clustering, yang mengintegrasikan pengetahuan domain atau informasi tambahan dalam bentuk batasan (must-link dan cannot-link) sehingga hasil clustering tidak hanya berbasis kemiripan matematis, tetapi juga bermakna secara kontekstual.
3. Evolutionary / Genetic Clustering, yang memanfaatkan algoritma evolusi untuk mencari solusi clustering global optimal melalui mekanisme seleksi, crossover, dan mutasi, sehingga dapat menghindari jebakan solusi lokal (local optimum).
Berdasarkan latar belakang tersebut, penelitian ini bertujuan untuk:
1. Menerapkan metode Ensemble Clustering pada dataset pelanggan untuk memperoleh hasil clustering yang stabil dan robust.
2. Menerapkan metode Constraint-Based Clustering dengan mempertimbangkan pengetahuan domain guna meningkatkan interpretabilitas hasil cluster.
3. Menerapkan metode Evolutionary / Genetic Clustering sebagai pendekatan optimasi global untuk memperoleh kualitas cluster terbaik.
Membandingkan hasil ketiga metode clustering hybrid tersebut secara visual dan kuantitatif menggunakan teknik evaluasi clustering yang relevan, guna menentukan metode yang paling sesuai untuk karakteristik data yang dianalisis.
Dengan pendekatan ini, diharapkan penelitian mampu memberikan gambaran komprehensif mengenai kelebihan dan keterbatasan masing-masing metode clustering hybrid serta memberikan rekomendasi metode yang paling efektif untuk permasalahan segmentasi data pelanggan.
2. Dataset dan Sumber Data
2.1 Deskripsi Dataset
Dataset yang digunakan adalah Mall Customers Dataset, berisi data pelanggan pusat perbelanjaan.
Variabel:
- Gender
- Age
- Annual Income (k$)
- Spending Score (1 - 100)
2.2 Sumber Data
Dataset diperoleh dari Kaggle (Publik, open - access):
LINK:https://www.kaggle.com/datasets/amisha0528/mall-customers-dataset
3. Eksplorasi Data Awal
3.1 Load Data
Hasil Eksplorasi:
- Tidak terdapat missing value
- Data campuran (numerik dan kategorik)
- Skala variabel berbeda -> perlu scaling
4. Pra - pemrosesan Data
4.1 Encoding Variabel kategorik
4.2 Seleksi dan Scaling Variabel
Alasan Scaling:
Algoritma clustering berbasis jarak (Euclidean) sensitif terhadap perbedaan skala.
5. Reduksi Dimensi (PCA)
5.1 Alasan PCA
- Visualisasi cluster dalam 2D
- Mengurangi korelasi
- Tidak menghilangkan struktur utama data
5.2 Implementasi PCA
## Importance of components:
## PC1 PC2 PC3 PC4
## Standard deviation 1.1609 1.0243 0.9646 0.8202
## Proportion of Variance 0.3369 0.2623 0.2326 0.1682
## Cumulative Proportion 0.3369 0.5992 0.8318 1.0000
6. Visualisasi Data Awal
Interpretasi:
Data belum menunjukkan pemisahan alami -> clustering diperlukan.
7. Ensemble Clustering (Consensus)
7.1 Definisi
Ensamble clustering menggabungkan beberapa hasil clustering untuk memperoleh solusi yang lebih stabil dan robust.
7.2 Model Matematis
Co - association matrix: \[ A_{ij} = \frac{1}{M} \sum_{m=1}^{M} I\big(c_i^{(m)} = c_j^{(m)}\big) \]
Dimana:
- \(A_ij\) : tingkat kesamaan objek \(i\) dan \(j\)
- \(M\) : jumlah metode atau model clustering
- \(c_i^{(m)}\) : label cluster objek ke - \(i\) pada metode ke - \(m\)
- \(I(.)\) : fungsi indikator (bernilai 1 jika kondisi benar, 0 jila salah)
7.3 Implementasi
## [1] 1 1 2 2 2 2 3 2 3 2 3 2 3 2 3 1 2 1 3 2 3 1 3 1 3 1 3 1 3 2 3 2 3 1 3 2 3
## [38] 2 3 2 3 1 3 2 3 2 3 2 2 2 3 1 2 3 3 3 3 3 2 3 3 1 3 3 3 1 3 3 1 2 3 3 3 3
## [75] 3 1 3 1 2 3 3 1 3 3 2 3 3 2 2 3 3 1 3 3 2 1 3 2 3 1 2 3 3 1 3 2 3 3 3 3 3
## [112] 2 2 1 2 2 3 3 3 3 1 2 2 1 2 2 1 1 1 1 1 1 2 2 1 2 3 1 1 2 3 1 2 2 1 1 1 2
## [149] 3 1 1 1 3 2 3 2 1 2 1 2 3 2 1 2 1 2 1 2 3 1 1 1 1 1 3 2 1 1 1 1 3 2 1 2 3
## [186] 1 3 1 3 2 3 2 1 2 3 2 3 1 1 1
| Cluster | Jumlah_Anggota |
|---|---|
| 1 | 61 |
| 2 | 61 |
| 3 | 78 |
7.4 Visualisasi Ensamble
Keterangan:
Visualisasi PCA 3D digunakan untuk menampilkan struktur cluster hasil ensemble clustering dalam ruang tiga dimensi berdasarkan tiga komponen utama yang menjelaskan variasi terbesar dalam data. Pemisahan cluster yang jelas menunjukkan bahwa metode ensemble mampu menangkap pola data yang lebih stabil dibandingkan satu metode clustering tunggal.
7.5 Dendrogram Ensamble
## ensemble_cluster
## 1 2 3
## 61 61 78
Keterangan:
Pemotongan dendrogram pada \(k = 3\) menghasilkan tiga cluster consensus yang diperoleh dari hierarchical clustering berbasis matriks co-association.
8. Constraint - Based Clustering
8.1 Definisi
Clustering dengan aturan:
- Must - link: dua data harus satu cluster
- Cannot - link: dua data tidak boleh satu cluster
8.2 Model Matematis
\[ J = \mathrm{SSE} + \lambda \sum ML + \mu \sum CL \]
Dimana:
- \(J\): fungsi objektif
- \(SSE\): Sum of Squared Errors
- \(ML\): Must - Link constraints
- \(CL\): Cannot - Link constraints
- \(\lambda, \mu\): parameter peneliti
8.3 Implementasi
8.4 Visualisasi Constrain - Based
9. Evolutionart atau Genetic Clusterin
9.1 Definisi
Genetic clustering menggunakan algoritma evolusi untuk mencari solusi global optimal.
9.2 Fingsi Fitness
[ = + _1 ]
Dimana:
- Gunakan \(Fitness\) agar teks tidak miring
- \(\epsilon1 / \varepsilon_1\) -> konsisten pilih salah satu di seluruh dokumen
- \(SSE\) = Sum of Squared Errors
9.3 Implementasi
Keterangan:
“Pendekatan genetic clustering digantikan dengan multi-start K-Means (nstart besar) untuk mendekati solusi global tanpa menggunakan algoritma genetika eksplisit.”
9.4 Visualisasi Genetic
Keterangan:
- ga_cluster = hasil K - Means multi - start -> meniru ngenetic clustering
- pca_data$Genetic -> menampung cluster
- Visualisasi menunjukkan cluster di ruang PCA
- Tidak ada package luar -> aman dan stabil
10. Evaluasi Clustering
10.1 Silhouette Coefficient
10.2 Silhouette Plot
11. Kesimpulan, Rekomendasi dan Penutup
11.1 Kesimpulan
Berdasarkan hasil analisis dan evaluasi yang telah dilakukan, dapat disimpulkan bahwa:
1. Pendekatan clustering hybrid terbukti mampu meningkatkan kualitas dan stabilitas hasil clustering dibandingkan pendekatan tunggal.
2. Ensemble clustering efektif dalam menghasilkan segmentasi yang stabil dan robust tanpa memerlukan pengetahuan awal.
3. Constraint-based clustering sangat bermanfaat ketika tersedia aturan atau pengetahuan domain yang valid.
4. Genetic clustering memberikan kualitas cluster terbaik secara kuantitatif, namun dengan konsekuensi waktu komputasi yang lebih tinggi.
5. Pemilihan metode clustering sebaiknya disesuaikan dengan tujuan analisis, ketersediaan pengetahuan domain, dan sumber daya komputasi.
11.2 Rekomendasi
Beberapa Rekomendasi untuk pengembangan lebih lanjut adalah:
1. Menambahkan validasi eksternal (ARI, NMI) jika tersedia label referensi.
2. Menguji stabilitas clustering menggunakan teknik resampling atau bootstrap.
3. Mengombinasikan pendekatan genetic dan constraint untuk hasil yang lebih optimal.
4. Menggunakan metode reduksi dimensi lain seperti UMAP atau t-SNE untuk eksplorasi visual lanjutan.
11.3 Penutup
Dengan selesainya analisis ini, diharapkan hasil clustering yang diperoleh dapat memberikan pemahaman yang lebih mendalam mengenai segmentasi pelanggan, serta menjadi dasar pengambilan keputusan strategis berbasis data. Pendekatan clustering hybrid yang digunakan dalam penelitian ini menunjukkan potensi besar dalam menangani kompleksitas data dunia nyata.
Daftar Pustaka
Mall Customers Dataset, Amisha0528.Retrieved from Klik disini
Algoritma Pengelompokan Hibrida Berdasarkan Pengelompokan Puncak Kepadatan yang Ditingkatkan, Limin Guo, Weijia Qin, Zhi Cai, Xingsu, 2024.Retrieved from Klik disini
Jurnal Universitas King Saud - Ilmu Komputer dan Informasi, Yubo Wang, Shelesh Krishna Saraswat, Iraj Elyasi Komari, Januari 2023.Retrieved from Klik disini
Constrained Clustering, Wikipedia, 2025.Retrieved from Klik disini
Gene cluster, WikipediaThe Free Encyclopedia.Retrieved from Klik disini