LAPORAN ANALISIS CLUSTERING HYBRID

Nama: Nabila Anggita Putri

Program Studi: S1 - Sains Data

Dosen Pengampu: Mr. Bakti Siregar, M.Sc., CDS.,

Institusi: Institut Teknologi Sains Bandung



Foto Formal



1. Pendahuluan

Analisis clustering merupakan teknik dalam unsupervised learning yang bertujuan mengelompokkan individu atau observasi berdasarkan tingkat kemiripan karakteristik tanpa menggunakan label kelas. Metode ini penting dalam berbagai bidang analisis data, termasuk segmentasi pelanggan, karena mampu mengungkap pola tersembunyi (hidden patterns) di dalam data. Dalam konteks pemasaran ritel, khususnya pada data pelanggan di sebuah mall, clustering digunakan untuk memahami perilaku belanja konsumen sehingga perusahaan dapat menyusun strategi pemasaran yang lebih tepat sasaran.

Pada studi ini dilakukan pendekatan clustering hybrid, yaitu gabungan atau kombinasi dari beberapa metode clustering untuk menghasilkan performa segmentasi yang lebih stabil, akurat, dan representatif. Teknik hybrid memanfaatkan keunggulan setiap algoritma, sehingga dapat mengatasi keterbatasan yang muncul jika hanya menggunakan satu metode. Misalnya, metode berbasis jarak kadang sensitif terhadap noise dan bentuk klaster yang tidak linear, sementara metode berbasis graf dapat lebih baik dalam memetakan struktur kompleks namun memiliki beban komputasi tinggi. Dengan pendekatan hybrid, proses clustering dapat dilakukan lebih robust melalui tahap ekstraksi fitur, reduksi dimensi, atau penyempurnaan hasil klaster.

Dalam penelitian ini digunakan tiga pendekatan clustering modern yang mewakili tiga paradigma berbeda:

1. Autoencoder Clustering – pendekatan berbasis deep learning yang melakukan pembelajaran representasi (representation learning). Autoencoder mereduksi dimensi data melalui latent space, sehingga struktur data menjadi lebih kompak dan mudah dipisahkan sebelum diterapkan algoritma klaster seperti KMeans.

2. Self-Organizing Map (SOM) – metode jaringan saraf kompetitif yang memproyeksikan data berdimensi tinggi ke dalam grid dua dimensi. SOM mampu memvisualisasikan pola topologis dan kesamaan antar data secara intuitif, sehingga sangat membantu dalam interpretasi struktur klaster.

3. Spectral Clustering – metode berbasis dekomposisi eigen pada matriks Laplacian graf. Pendekatan ini lebih efektif untuk mengelompokkan data dengan bentuk klaster yang kompleks, tidak beraturan, maupun tidak terpisah secara linear.

Ketiga metode tersebut dibandingkan untuk menentukan pendekatan yang paling tepat dalam mengelompokkan pelanggan mall berdasarkan perilaku belanja mereka. Melalui analisis ini, diharapkan diperoleh segmentasi pelanggan yang lebih akurat dan dapat menjadi dasar pengambilan keputusan dalam strategi pemasaran, pengelolaan loyalitas, dan pengembangan layanan yang sesuai dengan profil tiap kelompok pelanggan.

Dataset yang digunakan adalah:

Mall Customers Dataset (Publik — tersedia di Kaggle). Link: “https://www.kaggle.com/datasets/amisha0528/mall-customers-dataset”.

2. Definisi Dan Teori

2.1 Autoencoder (Unsupervised Clustering)

Autoencoder adalah arsitektur jaringan saraf dalam yang belajar memetakan data ke ruang berdimensi lebih rendah (latent space) melalui proses rekonstruksi. Representasi laten inilah yang digunakan sebagai input untuk clustering.

Rumus:

Autoencoder terdiri dari dua fungsi:

1. Encoder: \[ z = f_{\theta}(x) \]

2. Decoder: \[ \hat{x} = g_{\phi}(z) \]

Tujuan Optimasi: \[ \min_{\theta, \phi} \, \lVert x - \hat{x} \rVert^{2} \]

Sehingga model belajar representasi padat (compressed) yang mempertahankan struktur utama data.

a. Cara Kerja

  • Melakukan encoding data → latent space.
  • Melakukan decoding untuk meminimalkan error rekonstruksi.
  • Mengambil latent representation z.
  • Melakukan clustering pada z (umumnya KMeans atau Gaussian Mixture).

b. Hyperparameter Utama

  • Jumlah neuron di hidden layer
  • Dimensi latent space
  • Aktivasi (ReLU, Sigmoid)
  • Optimizer (Adam)
  • Epoch & batch size

c. Kelebihan

  • Sangat baik untuk data kompleks.
  • Menangkap struktur non-linear.
  • Menghasilkan fitur yang lebih representatif untuk clustering.

d. Keterbatasan

  • Membutuhkan tuning banyak hyperparameter.
  • Butuh komputasi tinggi.
  • Rentan overfitting bila data sedikit.

2.2 Self - Organizing Map (SOM)

SOM adalah jaringan saraf unsupervised yang memetakan data berdimensi tinggi ke grid 2D melalui proses kompetisi antar neuron.

Model Matematis:

Pemilihan neuron pemenang: \[ \text{BMU} = \arg\min_i \, \lVert x - w_i \rVert \]

Pembaruan Bobot: \[ w_i(t+1) = w_i(t) + \alpha(t) \, h_{\text{BMU}, i}(t) \, (x - w_i(t)) \]

a. Cara Kerja

  • Inisialisasi grid neuron.
  • Untuk setiap data:
    • Tentukan Best Matching Unit (BMU).
    • Perbarui bobot tetangga.
  • Proses iteratif hingga konvergen.

b. Hyperparameter Utama

  • Ukuran grid (misal 10×10)
  • Learning rate
  • Radius neighborhood
  • Jumlah epoch

c. Kelebihan

  • Menyediakan peta topografi yang teratur
  • Mudah diinterpretasi
  • Cocok untuk clustering berbasis visual

d. Keterbatasan

  • Butuh pemilihan grid yang tepat
  • Tidak optimal untuk data sangat kompleks
  • Hasil clustering bergantung pada inisialisasi

2.3 Spectral Clustering

Metode clustering berbasis graf yang menggunakan eigenvector dari Laplacian graph untuk memproyeksikan data ke subspace sebelum dilakukan clustering (biasanya KMeans).

Rumus

Membangun similarity matrix: \[ S_{ij} = e^{-\frac{\lVert x_i - x_j \rVert^{2}}{2\sigma^{2}}} \]

Matriks Laplacian tidak ter-normalisasi: \[ L = D - S \]

Eigen-decomposition: \[ L v = \lambda v \]

a. Cara Kerja

  • Hitung similarity matrix.
  • Hitung Laplacian graph.
  • Ambil k eigenvector terkecil.
  • Cluster pada ruang eigenvector.

b. Hyperparameter Utama

  • Jumlah cluster
  • Jenis similarity (rbf, nearest neighbors)
  • Parameter sigma

c. Kelebihan

  • Menangkap struktur non-linear
  • Cocok untuk dataset dengan cluster tidak berbentuk bola
  • Lebih stabil dibanding KMeans pada boundary sulit

d. Keterbatsan

  • Komputasi tinggi \(O(n^3)\)
  • Sensitif terhadap pemilihan parameter sigma

3. Persiapan Data

Dataset berisi \(200\) pelanggan dengan variabel:

  • CustomerID
  • Genre
  • Age
  • Annual Income (k$)
  • Spending Score (1 - 100)

3.1 Loading Data

## 'data.frame':    200 obs. of  5 variables:
##  $ CustomerID   : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ Gender       : chr  "Male" "Male" "Female" "Female" ...
##  $ Age          : int  19 21 20 23 31 22 35 23 64 30 ...
##  $ Income       : int  15 15 16 16 17 17 18 18 19 19 ...
##  $ SpendingScore: int  39 81 6 77 40 76 6 94 3 72 ...
##    CustomerID        Gender               Age            Income      
##  Min.   :  1.00   Length:200         Min.   :18.00   Min.   : 15.00  
##  1st Qu.: 50.75   Class :character   1st Qu.:28.75   1st Qu.: 41.50  
##  Median :100.50   Mode  :character   Median :36.00   Median : 61.50  
##  Mean   :100.50                      Mean   :38.85   Mean   : 60.56  
##  3rd Qu.:150.25                      3rd Qu.:49.00   3rd Qu.: 78.00  
##  Max.   :200.00                      Max.   :70.00   Max.   :137.00  
##  SpendingScore  
##  Min.   : 1.00  
##  1st Qu.:34.75  
##  Median :50.00  
##  Mean   :50.20  
##  3rd Qu.:73.00  
##  Max.   :99.00

4 Redukasi Dimensi

Untuk metode Autoencoder, representasi laten sudah menjadi reduksi dimensi. Untuk SOM dan Spectral Clustering, reduksi tidak wajib karena dimensi kecil (4 fitur numerik).

Karena dataset ini kecil dan fitur sudah manageable, reduksi dimensi tidak dilakukan.

5. Pemodelan Clustering

5.1 Autoencoder + KMeans

Pemilihan Parameter

  • Dense layer: 8 → 4 → latent 2
  • Aktivasi: ReLU
  • Optimizer: Adam
  • Epoch: 100
##                    Metric   Value
## 1              Silhouette   0.350
## 2    Davies-Bouldin Index   1.135
## 3 Calinski-Harabasz Index 100.488

5.2 Self-Organizing Map (SOM)

Pemilihan Parameter

  • Grid: 10×10
  • Learning rate: default
  • Iterasi: 1000
##                    Metric  Value
## 1              Silhouette  0.348
## 2    Davies-Bouldin Index  1.140
## 3 Calinski-Harabasz Index 99.534

5.3 Spectral Clustering

Pemilihan Parameter

  • k = 3
  • SImilarity = radial basis function
##                    Metric  Value
## 1              Silhouette  0.246
## 2    Davies-Bouldin Index  1.823
## 3 Calinski-Harabasz Index 71.140

6. Evaluasi Clustering

Metode evaluasi:

1. Silhouette Index

2. Davies–Bouldin Index (DBI)

3. Calinski–Harabasz Index (CHI)

## [1] 0.3502714
## [1] 0.3476772
## [1] 0.2462819

7. Pembahasan Hasil dan Perbandingan

##        Metode Silhouette   DBI     CHI
## 1 Autoencoder      0.350 1.135 100.488
## 2         SOM      0.348 1.140  99.534
## 3    Spectral      0.246 1.823  71.140
##                                    Interpretasi
## 1 Biasanya baik jika struktur non-linear muncul
## 2                    Cocok untuk data sederhana
## 3      Umumnya stabil pada data low-dimensional

Interpretasi:

  • Autoencoder lebih unggul bila data memiliki pola non-linear.
  • SOM memberikan pemetaan topografi yang baik namun cluster terkadang kurang tegas.
  • Spectral Clustering efektif untuk dataset kecil dengan boundary non-linear.

8. Kesimpulan dan Rekomendasi

a. Kesimpulan

  • Ketiga algoritma mampu mengelompokkan pelanggan mall berdasarkan pendapatan dan skor belanja.
  • Representasi laten dari Autoencoder memberi struktur lebih kompak sehingga hasil clustering biasanya lebih stabil. -bSOM cocok digunakan bila interpretasi visual topografi dibutuhkan.
  • Spectral Clustering efektif untuk dataset kecil dan mampu menangkap pola non-linear.

b. Rekomendasi:

Untuk dataset Mall Customers, metode Autoencoder + KMeans cenderung memberikan performa terbaik karena mampu mempelajari representasi data secara non-linear sehingga memaksimalkan pemisahan cluster.

c. Penutup

Melalui analisis yang telah dilakukan, dapat disimpulkan bahwa proses clustering menggunakan pendekatan hybrid—Autoencoder, Self-Organizing Map (SOM), dan Spectral Clustering—memberikan pemahaman yang lebih komprehensif mengenai struktur dan pola tersembunyi dalam dataset pelanggan mall. Setiap metode menawarkan karakteristik, kekuatan, serta keterbatasan masing-masing, sehingga memberikan perspektif yang beragam dalam proses pengelompokan data.

Pendekatan Autoencoder memanfaatkan kemampuan representasi laten untuk menangkap pola non-linear secara lebih efektif. SOM memberikan interpretasi topografi yang intuitif, sedangkan Spectral Clustering menunjukkan kinerja yang baik pada struktur data yang kompleks namun berukuran kecil. Perbandingan ketiga metode ini memungkinkan pemilihan model clustering yang paling sesuai dengan tujuan analisis dan karakteristik dataset.

Harapannya, penelitian dan implementasi ini dapat menjadi landasan untuk pengembangan metode analisis data lanjutan, serta memberikan pemahaman yang lebih dalam mengenai penerapan algoritma clustering modern dalam konteks Data Sains. Semoga laporan ini dapat memberikan manfaat dan kontribusi positif bagi proses pembelajaran serta studi lebih lanjut terkait analisis data berbasis unsupervised learning.

DAFTAR PUSTAKA

  • Mall Customers Dataset, Amisha0528.Retrieved from Klik disini
  • Siberetika dan Sistem, Bei Lu dan Salman Saeidlou, 12 Agustus 2022.Retrieved from Klik disini
  • Algoritma Pengelompokan Hibrida Berdasarkan Pengelompokan Puncak Kepadatan yang Ditingkatkan, Limin Guo, Weijia Qin, Zhi Cai, Xingsu, 2024.Retrieved from Klik disini
  • Deteksi Anomali dalam Penipuan E-commerce Menggunakan Hybrid Autoencoder-Transformer Frameworks Wowon Priatna, Sri Yulianto Joko Prasetyo, Sutarto Wijono, Evi Maria, Danny Manongga, 2025.Retrieved from Klik disini
  • Self-organizing, hybrid, PDE-ODE structure for motion control in informationally-deprived situations, 1998.Retrieved from Klik disini
