Nama: Nabila Anggita Putri
Program Studi: S1 - Sains Data
Dosen Pengampu: Mr. Bakti Siregar, M.Sc.,
CDS.,
Institusi: Institut Teknologi Sains
Bandung

1. Pendahuluan
Analisis clustering merupakan teknik dalam unsupervised learning yang
bertujuan mengelompokkan individu atau observasi berdasarkan tingkat
kemiripan karakteristik tanpa menggunakan label kelas. Metode ini
penting dalam berbagai bidang analisis data, termasuk segmentasi
pelanggan, karena mampu mengungkap pola tersembunyi (hidden patterns) di
dalam data. Dalam konteks pemasaran ritel, khususnya pada data pelanggan
di sebuah mall, clustering digunakan untuk memahami perilaku belanja
konsumen sehingga perusahaan dapat menyusun strategi pemasaran yang
lebih tepat sasaran.
Pada studi ini dilakukan pendekatan clustering hybrid, yaitu gabungan
atau kombinasi dari beberapa metode clustering untuk menghasilkan
performa segmentasi yang lebih stabil, akurat, dan representatif. Teknik
hybrid memanfaatkan keunggulan setiap algoritma, sehingga dapat
mengatasi keterbatasan yang muncul jika hanya menggunakan satu metode.
Misalnya, metode berbasis jarak kadang sensitif terhadap noise dan
bentuk klaster yang tidak linear, sementara metode berbasis graf dapat
lebih baik dalam memetakan struktur kompleks namun memiliki beban
komputasi tinggi. Dengan pendekatan hybrid, proses clustering dapat
dilakukan lebih robust melalui tahap ekstraksi fitur, reduksi dimensi,
atau penyempurnaan hasil klaster.
Dalam penelitian ini digunakan tiga pendekatan clustering modern yang
mewakili tiga paradigma berbeda:
1. Autoencoder Clustering – pendekatan berbasis deep
learning yang melakukan pembelajaran representasi (representation
learning). Autoencoder mereduksi dimensi data melalui latent space,
sehingga struktur data menjadi lebih kompak dan mudah dipisahkan sebelum
diterapkan algoritma klaster seperti KMeans.
2. Self-Organizing Map (SOM) – metode jaringan saraf
kompetitif yang memproyeksikan data berdimensi tinggi ke dalam grid dua
dimensi. SOM mampu memvisualisasikan pola topologis dan kesamaan antar
data secara intuitif, sehingga sangat membantu dalam interpretasi
struktur klaster.
3. Spectral Clustering – metode berbasis dekomposisi
eigen pada matriks Laplacian graf. Pendekatan ini lebih efektif untuk
mengelompokkan data dengan bentuk klaster yang kompleks, tidak
beraturan, maupun tidak terpisah secara linear.
Ketiga metode tersebut dibandingkan untuk menentukan pendekatan yang
paling tepat dalam mengelompokkan pelanggan mall berdasarkan perilaku
belanja mereka. Melalui analisis ini, diharapkan diperoleh segmentasi
pelanggan yang lebih akurat dan dapat menjadi dasar pengambilan
keputusan dalam strategi pemasaran, pengelolaan loyalitas, dan
pengembangan layanan yang sesuai dengan profil tiap kelompok
pelanggan.
Dataset yang digunakan adalah:
Mall Customers Dataset (Publik — tersedia di
Kaggle). Link: “https://www.kaggle.com/datasets/amisha0528/mall-customers-dataset”.
2. Definisi Dan Teori
2.1 Autoencoder (Unsupervised Clustering)
Autoencoder adalah arsitektur jaringan saraf dalam yang belajar
memetakan data ke ruang berdimensi lebih rendah (latent space) melalui
proses rekonstruksi. Representasi laten inilah yang digunakan sebagai
input untuk clustering.
Rumus:
Autoencoder terdiri dari dua fungsi:
1. Encoder: \[
z = f_{\theta}(x)
\]
2. Decoder: \[
\hat{x} = g_{\phi}(z)
\]
Tujuan Optimasi: \[
\min_{\theta, \phi} \, \lVert x - \hat{x} \rVert^{2}
\]
Sehingga model belajar representasi padat (compressed) yang
mempertahankan struktur utama data.
a. Cara Kerja
- Melakukan encoding data → latent space.
- Melakukan decoding untuk meminimalkan error rekonstruksi.
- Mengambil latent representation z.
- Melakukan clustering pada z (umumnya KMeans atau Gaussian
Mixture).
b. Hyperparameter Utama
- Jumlah neuron di hidden layer
- Dimensi latent space
- Aktivasi (ReLU, Sigmoid)
- Optimizer (Adam)
- Epoch & batch size
c. Kelebihan
- Sangat baik untuk data kompleks.
- Menangkap struktur non-linear.
- Menghasilkan fitur yang lebih representatif untuk clustering.
d. Keterbatasan
- Membutuhkan tuning banyak hyperparameter.
- Butuh komputasi tinggi.
- Rentan overfitting bila data sedikit.
2.2 Self - Organizing Map (SOM)
SOM adalah jaringan saraf unsupervised yang memetakan data berdimensi
tinggi ke grid 2D melalui proses kompetisi antar neuron.
Model Matematis:
Pemilihan neuron pemenang: \[
\text{BMU} = \arg\min_i \, \lVert x - w_i \rVert
\]
Pembaruan Bobot: \[
w_i(t+1) = w_i(t) + \alpha(t) \, h_{\text{BMU}, i}(t) \, (x - w_i(t))
\]
a. Cara Kerja
- Inisialisasi grid neuron.
- Untuk setiap data:
- Tentukan Best Matching Unit (BMU).
- Perbarui bobot tetangga.
- Proses iteratif hingga konvergen.
b. Hyperparameter Utama
- Ukuran grid (misal 10×10)
- Learning rate
- Radius neighborhood
- Jumlah epoch
c. Kelebihan
- Menyediakan peta topografi yang teratur
- Mudah diinterpretasi
- Cocok untuk clustering berbasis visual
d. Keterbatasan
- Butuh pemilihan grid yang tepat
- Tidak optimal untuk data sangat kompleks
- Hasil clustering bergantung pada inisialisasi
2.3 Spectral Clustering
Metode clustering berbasis graf yang menggunakan eigenvector dari
Laplacian graph untuk memproyeksikan data ke subspace sebelum dilakukan
clustering (biasanya KMeans).
Rumus
Membangun similarity matrix: \[
S_{ij} = e^{-\frac{\lVert x_i - x_j \rVert^{2}}{2\sigma^{2}}}
\]
Matriks Laplacian tidak ter-normalisasi: \[
L = D - S
\]
Eigen-decomposition: \[
L v = \lambda v
\]
a. Cara Kerja
- Hitung similarity matrix.
- Hitung Laplacian graph.
- Ambil k eigenvector terkecil.
- Cluster pada ruang eigenvector.
b. Hyperparameter Utama
- Jumlah cluster
- Jenis similarity (rbf, nearest neighbors)
- Parameter sigma
c. Kelebihan
- Menangkap struktur non-linear
- Cocok untuk dataset dengan cluster tidak berbentuk bola
- Lebih stabil dibanding KMeans pada boundary sulit
d. Keterbatsan
- Komputasi tinggi \(O(n^3)\)
- Sensitif terhadap pemilihan parameter sigma
3. Persiapan Data
Dataset berisi \(200\) pelanggan
dengan variabel:
- CustomerID
- Genre
- Age
- Annual Income (k$)
- Spending Score (1 - 100)
3.1 Loading Data
## 'data.frame': 200 obs. of 5 variables:
## $ CustomerID : int 1 2 3 4 5 6 7 8 9 10 ...
## $ Gender : chr "Male" "Male" "Female" "Female" ...
## $ Age : int 19 21 20 23 31 22 35 23 64 30 ...
## $ Income : int 15 15 16 16 17 17 18 18 19 19 ...
## $ SpendingScore: int 39 81 6 77 40 76 6 94 3 72 ...
## CustomerID Gender Age Income
## Min. : 1.00 Length:200 Min. :18.00 Min. : 15.00
## 1st Qu.: 50.75 Class :character 1st Qu.:28.75 1st Qu.: 41.50
## Median :100.50 Mode :character Median :36.00 Median : 61.50
## Mean :100.50 Mean :38.85 Mean : 60.56
## 3rd Qu.:150.25 3rd Qu.:49.00 3rd Qu.: 78.00
## Max. :200.00 Max. :70.00 Max. :137.00
## SpendingScore
## Min. : 1.00
## 1st Qu.:34.75
## Median :50.00
## Mean :50.20
## 3rd Qu.:73.00
## Max. :99.00
4 Redukasi Dimensi
Untuk metode Autoencoder, representasi laten sudah menjadi reduksi
dimensi. Untuk SOM dan Spectral Clustering, reduksi tidak wajib karena
dimensi kecil (4 fitur numerik).
Karena dataset ini kecil dan fitur sudah manageable, reduksi dimensi
tidak dilakukan.
5. Pemodelan Clustering
5.1 Autoencoder + KMeans
Pemilihan Parameter
- Dense layer: 8 → 4 → latent 2
- Aktivasi: ReLU
- Optimizer: Adam
- Epoch: 100
## Metric Value
## 1 Silhouette 0.350
## 2 Davies-Bouldin Index 1.135
## 3 Calinski-Harabasz Index 100.488
5.2 Self-Organizing Map (SOM)
Pemilihan Parameter
- Grid: 10×10
- Learning rate: default
- Iterasi: 1000
## Metric Value
## 1 Silhouette 0.348
## 2 Davies-Bouldin Index 1.140
## 3 Calinski-Harabasz Index 99.534
5.3 Spectral Clustering
Pemilihan Parameter
- k = 3
- SImilarity = radial basis function
## Metric Value
## 1 Silhouette 0.246
## 2 Davies-Bouldin Index 1.823
## 3 Calinski-Harabasz Index 71.140
6. Evaluasi Clustering
Metode evaluasi:
1. Silhouette Index
2. Davies–Bouldin Index (DBI)
3. Calinski–Harabasz Index (CHI)
## [1] 0.3502714
## [1] 0.3476772
## [1] 0.2462819
7. Pembahasan Hasil dan Perbandingan
## Metode Silhouette DBI CHI
## 1 Autoencoder 0.350 1.135 100.488
## 2 SOM 0.348 1.140 99.534
## 3 Spectral 0.246 1.823 71.140
## Interpretasi
## 1 Biasanya baik jika struktur non-linear muncul
## 2 Cocok untuk data sederhana
## 3 Umumnya stabil pada data low-dimensional
Interpretasi:
- Autoencoder lebih unggul bila data memiliki pola non-linear.
- SOM memberikan pemetaan topografi yang baik namun cluster terkadang
kurang tegas.
- Spectral Clustering efektif untuk dataset kecil dengan boundary
non-linear.
8. Kesimpulan dan Rekomendasi
a. Kesimpulan
- Ketiga algoritma mampu mengelompokkan pelanggan mall berdasarkan
pendapatan dan skor belanja.
- Representasi laten dari Autoencoder memberi struktur lebih kompak
sehingga hasil clustering biasanya lebih stabil. -bSOM cocok digunakan
bila interpretasi visual topografi dibutuhkan.
- Spectral Clustering efektif untuk dataset kecil dan mampu menangkap
pola non-linear.
b. Rekomendasi:
Untuk dataset Mall Customers, metode Autoencoder +
KMeans cenderung memberikan performa terbaik karena mampu
mempelajari representasi data secara non-linear sehingga memaksimalkan
pemisahan cluster.
c. Penutup
Melalui analisis yang telah dilakukan, dapat disimpulkan bahwa proses
clustering menggunakan pendekatan hybrid—Autoencoder, Self-Organizing
Map (SOM), dan Spectral Clustering—memberikan pemahaman yang lebih
komprehensif mengenai struktur dan pola tersembunyi dalam dataset
pelanggan mall. Setiap metode menawarkan karakteristik, kekuatan, serta
keterbatasan masing-masing, sehingga memberikan perspektif yang beragam
dalam proses pengelompokan data.
Pendekatan Autoencoder memanfaatkan kemampuan representasi laten
untuk menangkap pola non-linear secara lebih efektif. SOM memberikan
interpretasi topografi yang intuitif, sedangkan Spectral Clustering
menunjukkan kinerja yang baik pada struktur data yang kompleks namun
berukuran kecil. Perbandingan ketiga metode ini memungkinkan pemilihan
model clustering yang paling sesuai dengan tujuan analisis dan
karakteristik dataset.
Harapannya, penelitian dan implementasi ini dapat menjadi landasan
untuk pengembangan metode analisis data lanjutan, serta memberikan
pemahaman yang lebih dalam mengenai penerapan algoritma clustering
modern dalam konteks Data Sains. Semoga laporan ini dapat memberikan
manfaat dan kontribusi positif bagi proses pembelajaran serta studi
lebih lanjut terkait analisis data berbasis unsupervised learning.
DAFTAR PUSTAKA
- Mall Customers Dataset, Amisha0528.Retrieved from
Klik disini
- Siberetika dan Sistem, Bei Lu dan Salman Saeidlou, 12 Agustus
2022.Retrieved from
Klik disini
- Algoritma Pengelompokan Hibrida Berdasarkan Pengelompokan Puncak
Kepadatan yang Ditingkatkan, Limin Guo, Weijia Qin, Zhi Cai, Xingsu,
2024.Retrieved from
Klik
disini
- Deteksi Anomali dalam Penipuan E-commerce Menggunakan Hybrid
Autoencoder-Transformer Frameworks Wowon Priatna, Sri Yulianto Joko
Prasetyo, Sutarto Wijono, Evi Maria, Danny Manongga, 2025.Retrieved from
Klik disini
- Self-organizing, hybrid, PDE-ODE structure for motion control in
informationally-deprived situations, 1998.Retrieved from
Klik disini
