Laporan Analisis dan Predictive Modeling
Study Case Hybrid (Autoencoder, SOM, Spectral Clustering)
Nama: Isnaini Nur Hasanah
NIM: 52240005
Program Studi: Sains Data
Institusi: Institut Teknologi Sains Bandung
Mata Kuliah: Analysis and Predictive Modeling
Dosen Pengampu: Bakti Siregar, M.Sc., CDS.
1 Pendahuluan
1.1 Latar Belakang
Perkembangan teknologi digital dan meningkatnya ketersediaan data dalam jumlah besar mendorong kebutuhan untuk memahami pola tersembunyi dalam dataset secara lebih mendalam. Dalam konteks data-driven decision making, analisis berbasis data menjadi semakin krusial, terutama pada domain seperti pemasaran, keuangan, dan manajemen risiko (Han et al. (2012)). Salah satu metode penting dalam analisis data adalah unsupervised learning, khususnya clustering, yang mengelompokkan objek berdasarkan kemiripan karakteristik tanpa menggunakan label (Jain (2010)).
Dalam konteks penelitian ini, digunakan dataset Credit Card Customers dengan 8.951 baris data pelanggan kartu kredit dan 17 variabel numerik yang menggambarkan perilaku transaksi, pola pembelian, penggunaan cash advance, serta pembayaran kredit. Dataset ini sangat relevan untuk tugas clustering karena:
- Memiliki banyak fitur numerik dengan skala berbeda.
- Menunjukkan pola perilaku pelanggan yang beragam.
- Berpotensi membentuk segmentasi pelanggan yang bermakna.
Clustering banyak digunakan dalam segmentasi pelanggan untuk memahami perilaku transaksi, menemukan high-value customers, mengidentifikasi pelanggan berisiko, serta mendukung strategi pemasaran yang lebih tepat sasaran (Tsai & Chiu (2004)).
Pada study case ini, digunakan tiga teknik utama dalam Hybrid Clustering Approach, yaitu:
- Autoencoder, yaitu unsupervised neural network untuk ekstraksi fitur non-linear dalam representasi berdimensi rendah (Hinton & Salakhutdinov (2006)).
- Self-Organizing Map (SOM), metode neural mapping yang memproyeksikan data berdimensi tinggi ke dalam ruang dua dimensi sambil mempertahankan struktur topologis (Kohonen (1990)).
- Spectral Clustering, metode klasterisasi berbasis eigen-decomposition yang efektif dalam menangkap struktur kluster non-linear yang tidak dapat ditangkap oleh metode tradisional seperti K-Means (Ng et al. (2002a)).
1.2 Sumber Data
Dataset yang digunakan berasal dari repositori GitHub dengan struktur variabel:
- CUST_ID
- BALANCE
- BALANCE_FREQUENCY
- PURCHASES
- ONEOFF_PURCHASES
- INSTALLMENTS_PURCHASES
- CASH_ADVANCE
- PURCHASES_FREQUENCY
- ONEOFF_PURCHASES_FREQUENCY
- PURCHASES_INSTALLMENTS_FREQUENCY
- CASH_ADVANCE_FREQUENCY
- CASH_ADVANCE_TRX
- PURCHASES_TRX
- CREDIT_LIMIT
- PAYMENTS
- MINIMUM_PAYMENTS
- PRC_FULL_PAYMENT
- TENURE
Dataset berisi 8.951 baris data pelanggan dan seluruh variabel (kecuali ID) merupakan variabel numerik. Hal ini memudahkan proses preprocessing, normalisasi, dan penerapan berbagai teknik clustering.
1.3 Rumusan Masalah
- Bagaimana memproses dan mengekstraksi fitur laten dari dataset pelanggan kartu kredit menggunakan Autoencoder?
- Bagaimana Self-Organizing Map (SOM) dapat digunakan untuk memvisualisasikan struktur data dan menemukan pola cluster?
- Bagaimana Spectral Clustering dapat menghasilkan cluster yang berkualitas pada data pelanggan yang bersifat non-linear?
- Bagaimana perbandingan hasil clustering dari ketiga metode tersebut berdasarkan indeks evaluasi seperti Silhouette Score, Davies-Bouldin Index, Calinski-Harabasz Index, dan stabilitas cluster?
- Metode mana yang paling efektif untuk segmentasi pelanggan kartu kredit dan mengapa?
1.4 Relevansi Clustering Terhadap Dataset
Clustering relevan untuk dataset ini karena:
- Data pelanggan memiliki distribusi perilaku yang beragam.
- Tidak tersedia label ground truth → cocok untuk unsupervised.
- Pola non-linear membuat Autoencoder dan Spectral Clustering sangat
efektif.
- Segmentasi pelanggan sangat penting dalam analitik pemasaran dan manajemen risiko kredit (tsai2004market).
- Perusahaan dapat menggunakan hasil cluster untuk strategi bisnis
seperti:
- penawaran kartu kredit premium,
- meningkatkan retensi pelanggan,
- mencegah risiko kredit macet,
- mengoptimalkan biaya pemasaran.
- penawaran kartu kredit premium,
Dengan pendekatan hybrid, hasil cluster akan lebih akurat dibandingkan menggunakan metode tunggal.
2 Definisi Metode Hybrid
2.1 Autoencoder
Autoencoder merupakan arsitektur jaringan saraf tiruan berjenis unsupervised learning yang bertujuan untuk mempelajari representasi laten berdimensi lebih rendah dari data masukan (Goodfellow et al. (2016)). Arsitektur ini terdiri dari tiga bagian utama: encoder, latent space, dan decoder. Encoder memetakan data asli ke dimensi yang lebih rendah, sementara decoder berusaha merekonstruksi kembali data tersebut ke bentuk semula.
Penggunaan Autoencoder dalam clustering bermanfaat untuk mengurangi noise, menghilangkan redundansi, dan menghasilkan fitur non-linear yang lebih representatif daripada metode linier seperti PCA. Representasi ini menjadi masukan yang lebih stabil bagi algoritma clustering berikutnya.
2.2 Self-Organizing Map (SOM)
Self-Organizing Map (SOM) adalah jaringan saraf unsupervised yang dikembangkan oleh Kohonen (Kohonen (1998)). SOM memproyeksikan data berdimensi tinggi ke dalam ruang dua dimensi berupa grid yang terstruktur sehingga hubungan topologis antar data dapat dipertahankan. Proses pembelajaran SOM menggunakan competitive learning, yaitu neuron dengan jarak paling dekat terhadap data akan diperbarui bersama dengan neuron tetangganya.
SOM sering digunakan sebagai metode visualisasi cluster karena mampu mengungkap pola dan struktur data secara intuitif. Selain itu, SOM efektif bila diberi input hasil reduksi dimensi, seperti latent space Autoencoder.
2.3 Spectral Clustering
Spectral Clustering merupakan metode clustering berbasis teori graf yang memanfaatkan eigenvalue dan eigenvector dari matriks Laplacian untuk melakukan pemetaan ke ruang embedding (Ng et al. (2002a)). Prosedur ini dimulai dengan membentuk matriks kemiripan, menghitung matriks Laplacian, kemudian mengambil beberapa eigenvector untuk membangun representasi baru. Pada ruang embedding inilah proses clustering (misalnya K-Means) dilakukan.
Metode ini unggul dalam mendeteksi struktur cluster non-linear dan pola kompleks yang tidak dapat diidentifikasi oleh algoritma berbasis jarak Euclidean biasa. Dalam pendekatan hybrid, Spectral Clustering bekerja optimal ketika inputnya berasal dari representasi yang telah dibersihkan dan diringkas, seperti hasil Autoencoder atau mapping SOM.
3 Rumus Inti & Model Matematis
Autoencoder merupakan arsitektur jaringan saraf yang mempelajari representasi laten (latent representation) dengan cara merekonstruksi kembali input melalui dua fungsi utama: encoder dan decoder (Goodfellow et al. (2016)). Autoencoder meminimalkan loss rekonstruksi sehingga dapat menangkap struktur non-linear dalam data berdimensi tinggi.
3.1 Rumus Autoencoder
Encoder: \[ h = f_{\theta}(x) \] Decoder: \[ \hat{x} = g_{\theta'}(h) \] Tujuan pelatihan adalah meminimalkan reconstruction loss, umumnya Mean Squared Error (MSE): \[ L(x, \hat{x}) = \| x - \hat{x} \|^2 \] Autoencoder efektif digunakan untuk reduksi dimensi non-linear dan ekstraksi fitur laten sebelum proses clustering.
3.2 Rumus SOM
Self-Organizing Map (SOM) diperkenalkan oleh Kohonen sebagai algoritma pembelajaran tidak terawasi berbasis kompetisi neuron yang memetakan data berdimensi tinggi ke grid dua dimensi sambil mempertahankan struktur topologi (Kohonen (1982); Kohonen (2001)).
3.2.1 Best Matching Unit (BMU)
Setiap input \(x\) dibandingkan dengan bobot neuron \(w_j\), kemudian dipilih neuron dengan jarak minimum:
\[ BMU = \arg\min_j \| x - w_j \| \]
3.2.2 Pembaruan Bobot
Bobot neuron diperbarui mengikuti aturan:
\[ w_j(t+1) = w_j(t) + \alpha(t) h_{j,BMU}(t) (x - w_j(t)) \]
dengan: - \(\alpha(t)\): learning
rate
- \(h_{j,BMU}(t)\): fungsi tetangga
(neighborhood function)
SOM sangat efektif untuk visualisasi kluster pada data berdimensi tinggi melalui peta 2D.
3.3 Rumus Spectral Clustering
Spectral clustering memanfaatkan eigenvector dari graph Laplacian untuk menemukan struktur kluster non-linear, sehingga lebih fleksibel dibandingkan metode berbasis centroid seperti K-Means (Ng et al. (2002b); Luxburg (2007)).
3.3.1 Matriks Similarity
Data diubah menjadi graph melalui similarity matrix: \[ S_{ij} = \exp\left(-\frac{\|x_i - x_j\|^2}{2\sigma^2}\right) \]
3.3.2 Graph Laplacian
Laplacian tak ternormalisasi: \[ L = D - S \]
Laplacian ternormalisasi (Shi & Malik (2000)): \[ L_{\text{sym}} = D^{-1/2} L D^{-1/2} \]
3.3.3 Eigen Decomposition
Ambil \(k\) eigenvector terkecil dari \(L\) untuk membentuk embedding: \[ U = [u_1, u_2, \dots, u_k] \]
Clustering dilakukan dengan algoritma K-Means pada embedding \(U\).
Spectral clustering mampu menangkap bentuk kluster non-linear yang tidak dapat ditemukan oleh algoritma tradisional.
4 Cara Kerja & Hyperparameter Utama
4.1 Alur Autoencoder
Autoencoder adalah jaringan saraf yang dirancang untuk melakukan unsupervised representation learning dengan memampatkan data ke dalam representasi berdimensi rendah (latent space) lalu merekonstruksinya kembali. Arsitekturnya terdiri dari encoder, latent space, dan decoder (Goodfellow et al. (2016)).
Alur Kerja Autoencoder:
Input → Encoder: memproyeksikan data berdimensi tinggi ke representasi yang lebih kecil.
Latent Space: menyimpan fitur paling esensial.
Decoder: membangun kembali input asli dari latent representation.
Model dilatih untuk meminimalkan reconstruction error menggunakan fungsi loss seperti MSE.
Hyperparameter Utama Autoencoder:
Dimensi latent
Jumlah hidden layers
Activation function (ReLU, Sigmoid, Tanh)
Learning rate
Batch size dan epochs
4.2 Alur SOM
Self-Organizing Map (SOM) adalah algoritma unsupervised learning berbasis jaringan saraf kompetitif yang memetakan data berdimensi tinggi ke peta 2D sambil mempertahankan struktur topologinya (Kohonen (2001)).
Alur Kerja SOM:
Inisialisasi bobot neuron pada grid.
Menentukan Best Matching Unit (BMU) berdasarkan jarak Euclidean.
Memperbarui bobot BMU dan tetangganya menggunakan learning rate dan neighborhood function.
Mengurangi radius tetangga dan learning rate secara bertahap.
Hyperparameter Utama SOM:
Ukuran grid (misalnya 10×10 atau 20×20)
Learning rate
Radius tetangga
Decay function
Jumlah iterasi
4.3 Alur Spectral
Spectral Clustering mengelompokkan data berdasarkan struktur graf menggunakan eigenvalue decomposition dari Laplacian matrix (Luxburg (2007)).
Alur Kerja Spectral Clustering:
Membangun similarity matrix (misalnya Gaussian kernel atau k-nearest neighbors).
Menghitung Laplacian matrix (unnormalized atau normalized).
Mengambil eigenvectors dari Laplacian.
Memproyeksikan data ke ruang embedding eigenvector.
Melakukan clustering (biasanya K-Means) pada embedding.
Hyperparameter Utama Spectral Clustering:
Jumlah cluster (k)
Jenis similarity function
Parameter sigma untuk RBF kernel
Jenis Laplacian (unnormalized, normalized random walk, normalized symmetric)
5 Kelebihan dan Keterbatasan Praktis
5.1 Autoencoder
Autoencoder banyak digunakan untuk representation learning karena kemampuannya mengekstraksi fitur non-linear dari data berdimensi tinggi (Goodfellow et al. (2016)).
5.1.1 Kelebihan:
- Mampu mempelajari representasi non-linear → cocok untuk dataset yang
kompleks seperti transaksi keuangan.
- Dapat mereduksi dimensi secara adaptif tanpa asumsi
linearitas.
- Mengurangi noise dan menghasilkan fitur yang lebih informatif untuk
clustering.
- Arsitektur fleksibel (deep, convolutional, variational, dll.).
5.1.2 Keterbatasan:
- Membutuhkan tuning yang cukup kompleks, termasuk jumlah layer,
dimensi latent, learning rate.
- Butuh data relatif banyak agar tidak overfitting.
- Black-box, sulit dijelaskan secara intuitif.
- Waktu komputasi lebih berat dibanding PCA atau metode linear.
5.2 SOM
SOM adalah metode pemetaan topologis yang menjaga hubungan jarak antar data pada grid 2D (Kohonen (2001)).
5.2.1 Kelebihan:
- Visualisasi sangat kuat untuk data berdimensi tinggi.
- Menjaga struktur topologi, memudahkan interpretasi cluster.
- Robust terhadap noise pada tingkat tertentu.
- Cocok untuk exploratory data analysis sebelum clustering lebih lanjut.
5.2.2 Keterbatasan:
- Ukuran grid sangat memengaruhi hasil, sehingga sensitif terhadap
pemilihan parameter.
- Tidak menjamin optimalitas global karena menggunakan pembelajaran
kompetitif.
- Kurang baik untuk data yang sangat besar (grid harus membesar →
waktu lebih lama).
- Cluster boundaries tidak selalu jelas karena bersifat soft-topology.
5.3 Spectral Clustering
Spectral Clustering bekerja dengan membangun graf kesamaan dan memanfaatkan eigenvector Laplacian untuk memisahkan cluster non-linear (Luxburg (2007)).
5.3.1 Kelebihan:
- Sangat baik untuk data non-linear atau cluster dengan bentuk tidak
konveks.
- Tidak terjebak pada asumsi bentuk cluster tertentu seperti K-Means
(yang cenderung bulat).
- Menghasilkan cluster stabil pada data densitas yang
berbeda-beda.
- Teori matematis kuat karena berbasis graf dan eigenvalue decomposition.
5.3.2 Keterbatasan:
- Membangun similarity matrix berukuran n × n, sehingga tidak efisien
untuk dataset sangat besar.
- Hyperparameter sensitif, seperti sigma pada RBF kernel atau jumlah
tetangga.
- Membutuhkan normalisasi yang baik agar graf kesamaan stabil.
- Harus menentukan jumlah cluster k sebelum proses embedding.
6 Sumber Data & Loading Data di R
6.1 Sumber Data
Dataset yang digunakan dalam penelitian ini merupakan Credit Card Customers Dataset yang diambil dari repositori GitHub berikut:
🔗 https://github.com/mtang24/card_clusters/blob/main/CreditCard_dataset.csv
Dataset ini berisi 8.951 data pelanggan kartu kredit dengan 17 variabel numerik terkait perilaku transaksi, penggunaan cash advance, frekuensi pembelian, dan kemampuan pembayaran. Dataset ini dipilih karena memiliki karakteristik high-dimensional dan sepenuhnya tidak berlabel, sehingga sangat sesuai untuk eksperimen berbasis unsupervised learning. Struktur datanya terdiri dari fitur-fitur numerik hasil transformasi PCA dari transaksi kartu kredit, yang memberikan kompleksitas cukup tinggi untuk menguji performa gabungan metode Autoencoder, Self-Organizing Map (SOM), dan Spectral Clustering. Keberadaan fitur numerik berdimensi besar juga memungkinkan evaluasi kualitas cluster menggunakan berbagai metrik internal seperti Silhouette Score dan Davies–Bouldin Index.
Selain itu, dataset ini telah banyak digunakan dalam penelitian sebelumnya yang berfokus pada clustering dan analisis perilaku pelanggan, sehingga menjadikannya sumber data yang kredibel dan relevan secara akademik. Tersedianya dataset secara terbuka juga memastikan aspek transparansi dan reproducibility penelitian dapat terpenuhi. Seluruh data telah dianonimkan sehingga aman untuk digunakan dalam konteks akademik tanpa menimbulkan risiko terhadap kerahasiaan informasi sensitif. Dengan pertimbangan tersebut, dataset ini dinilai paling tepat untuk mendukung tujuan penelitian dan pengujian metode hybrid yang diusulkan.
6.2 Load Data
7 Eksplorasi Data
7.1 Struktur Data
Struktur data menunjukkan bahwa dataset terdiri dari satu variabel identitas pelanggan (CUST_ID) bertipe karakter dan delapan belas variabel numerik yang merepresentasikan berbagai aspek perilaku penggunaan kartu kredit. Variabel-variabel tersebut mencakup saldo dan aktivitas transaksi (BALANCE, PURCHASES, CASH_ADVANCE), pola frekuensi penggunaan (BALANCE_FREQUENCY, PURCHASES_FREQUENCY, ONEOFF_PURCHASES_FREQUENCY, CASH_ADVANCE_FREQUENCY), serta jumlah transaksi (PURCHASES_TRX, CASH_ADVANCE_TRX). Selain itu, terdapat variabel terkait limit, pembayaran, dan kewajiban seperti CREDIT_LIMIT, PAYMENTS, MINIMUM_PAYMENTS, dan PRC_FULL_PAYMENT, serta satu variabel durasi hubungan pelanggan (TENURE).
7.2 Statistik Deskriptif
Hasil statistik deskriptif menunjukkan bahwa seluruh variabel dalam dataset memiliki rentang nilai yang sangat lebar dan pola sebaran yang cenderung right-skewed, ditandai dengan nilai mean yang lebih tinggi dibandingkan median pada sebagian besar fitur seperti BALANCE, PURCHASES, dan ONEOFF_PURCHASES. Kondisi ini mengindikasikan keberadaan kelompok nasabah dengan aktivitas transaksi yang jauh lebih tinggi dibandingkan mayoritas lainnya. Sebagian besar variabel frekuensi—misalnya BALANCE_FREQUENCY—memiliki median dan kuartil atas bernilai 1, menunjukkan bahwa sebagian besar nasabah melakukan aktivitas secara rutin setiap bulan. Sementara itu, variabel nominal seperti PURCHASES dan CASH_ADVANCE memiliki nilai maksimum yang sangat ekstrem, menandakan adanya outlier atau segmen konsumen high-spender. Secara keseluruhan, pola ini mengimplikasikan bahwa perilaku transaksi kartu kredit dalam dataset sangat heterogen, dengan mayoritas nasabah bertransaksi dalam jumlah kecil hingga sedang, namun terdapat minoritas pengguna dengan nilai transaksi yang sangat besar sehingga memengaruhi rata-rata keseluruhan.
7.3 Missing Values
Hasil analisis missing values menunjukkan bahwa sebagian besar variabel dalam dataset tidak memiliki data hilang, sehingga kualitas data secara umum dapat dikategorikan sangat baik. Hanya dua variabel yang mengandung missing values, yaitu CREDIT_LIMIT dengan satu nilai hilang (0,01%) dan MINIMUM_PAYMENTS dengan 313 nilai hilang (3,5%). Proporsi missing yang sangat kecil pada CREDIT_LIMIT diperkirakan tidak berpengaruh signifikan terhadap analisis, namun missing pada MINIMUM_PAYMENTS perlu mendapatkan perhatian khusus karena mencerminkan ketidaklengkapan informasi mengenai kewajiban pembayaran minimum pelanggan. Secara keseluruhan, kondisi missing data masih dapat ditangani dengan teknik imputasi yang sesuai tanpa mengurangi kualitas analisis maupun hasil clustering yang akan dilakukan.
7.4 Distribusi Data
Untuk mempermudah analisis dari banyaknya variabel numerik pada dataset, dipilih tiga variabel dengan nilai varians terbesar, yaitu CREDIT_LIMIT, PAYMENTS, dan MINIMUM_PAYMENTS, karena varians tinggi menunjukkan penyebaran data yang luas dan informasi yang lebih signifikan untuk dianalisis. Visualisasi histogram ketiga variabel tersebut menunjukkan pola yang serupa, yaitu distribusi yang sangat condong ke kanan (right-skewed), di mana sebagian besar nasabah memiliki nilai transaksi atau limit kredit yang rendah, sementara hanya sedikit nasabah yang berada pada nilai yang sangat tinggi. Hal ini mengindikasikan adanya ketimpangan aktivitas finansial antar nasabah, dengan mayoritas berada pada kelompok beraktivitas rendah dan sebagian kecil berada pada rentang ekstrem yang dapat memengaruhi nilai rata-rata serta analisis lanjutan.
8 Preprocessing
8.1 Cleaning
Dataset hasil cleaning menunjukkan tidak ada duplikasi dan seluruh variabel numerik siap dianalisis setelah penghapusan CUST_ID. Nilai-nilai transaksi seperti BALANCE, PURCHASES, dan CASH_ADVANCE terlihat sangat bervariasi antar pelanggan, menandakan perbedaan perilaku penggunaan kartu kredit yang cukup lebar. Variabel frekuensi transaksi juga menunjukkan pola yang beragam, dari pengguna dengan aktivitas rendah hingga sangat aktif. Satu-satunya variabel dengan missing value berarti adalah MINIMUM_PAYMENTS (3,5%), namun secara keseluruhan dataset berada dalam kondisi baik untuk preprocessing lanjutan.
8.2 Imputasi
Sebelum imputasi, hanya dua variabel memiliki missing values, yaitu CREDIT_LIMIT (0,01%) dan MINIMUM_PAYMENTS (3,5%), sementara variabel lain lengkap sehingga kualitas data awal tergolong baik. Setelah dilakukan imputasi, seluruh missing values berhasil diatasi dan semua variabel memiliki data lengkap.
8.3 Scaling (Standarisasi)
Hasil standardisasi menunjukkan bahwa seluruh variabel kini berada pada skala yang sama dengan rata-rata mendekati nol dan sebaran satu, sehingga tidak ada lagi variabel yang mendominasi perhitungan jarak dalam analisis clustering. Nilai-nilai yang sebelumnya besar seperti CREDIT_LIMIT, PURCHASES, atau CASH_ADVANCE berhasil diperkecil ke kisaran standar, sementara variabel dengan rentang kecil seperti FREQUENCY juga diseimbangkan kontribusinya.
8.4 Feature Selection (Variance Threshold)
Dataset final setelah feature selection berisi seluruh variabel yang telah melalui tahap pembersihan, imputasi, dan standardisasi, sehingga siap digunakan untuk proses clustering. Seluruh fitur yang dipertahankan merupakan variabel dengan kontribusi paling relevan dalam menggambarkan perilaku transaksi dan profil penggunaan kartu kredit, serta sudah berada pada skala yang seimbang. Tidak terdapat lagi missing value maupun perbedaan skala antar variabel, memastikan bahwa setiap fitur berkontribusi secara setara dalam pembentukan cluster. Secara keseluruhan, dataset final telah bersih, terstandarisasi, dan mencerminkan informasi inti yang dibutuhkan untuk analisis lanjutan.
9 Reduksi Dimensi (PCA/UMAP/t-SNE)
9.1 Alasan Menggunakan Teknik Reduksi Dimensi (PCA/t-SNE/UMAP)
Reduksi dimensi dilakukan karena dataset memiliki banyak variabel numerik yang berpotensi menimbulkan multikolinearitas dan membuat struktur data sulit terlihat secara visual. Teknik seperti PCA, t-SNE, dan UMAP membantu memetakan data berdimensi tinggi ke ruang 2-dimensi sehingga pola, pengelompokan alami, dan outlier lebih mudah diamati sebelum melakukan clustering. PCA digunakan untuk melihat kontribusi varians tiap komponen utama, sedangkan t-SNE dan UMAP dipertimbangkan jika diperlukan untuk menangkap pola non-linear yang tidak dapat ditangkap oleh PCA. Dengan demikian, reduksi dimensi dipakai sebagai alat eksplorasi untuk memastikan bahwa struktur data mendukung proses clustering dan interpretasinya.
9.2 PCA
Proyeksi PCA menunjukkan bahwa distribusi data pelanggan masih menyebar cukup luas di sepanjang komponen utama pertama (PC1), yang menggambarkan variasi besar pada fitur-fitur dengan nilai transaksi dan pembayaran yang dominan. Penyebaran yang mengumpul pada area PC1 rendah mengindikasikan bahwa mayoritas pelanggan memiliki aktivitas transaksi dan pembayaran yang relatif kecil, sementara titik-titik ekstrem pada PC1 tinggi mencerminkan pelanggan dengan perilaku finansial tidak biasa, seperti belanja sangat tinggi atau penggunaan cash advance besar. Pola ini mengonfirmasi bahwa struktur data memiliki varians yang besar dan heterogen, sehingga PCA hanya membantu sebatas mereduksi dimensi namun tidak sepenuhnya memisahkan kelompok secara jelas.
9.3 UMAP
Visualisasi UMAP memperlihatkan struktur data yang lebih kompak dan membentuk beberapa gumpalan (cluster-like regions), menandakan bahwa pola perilaku pelanggan sebenarnya memiliki kedekatan dan kemiripan tertentu. UMAP lebih mampu menangkap hubungan non-linear antarfitur seperti frekuensi belanja, variasi nominal transaksi, serta kombinasi pembayaran minimum dan pembayaran penuh. Penyebaran yang tampak lebih terpisah dibandingkan PCA menunjukkan bahwa data memiliki potensi cluster secara alami, sehingga UMAP relevan untuk memahami struktur yang mendasari sebelum dilakukan algoritma clustering.
9.4 t-SNE
Hasil t-SNE menampilkan pola sebaran yang lebih terfragmentasi dan membentuk beberapa area padat yang terpisah secara visual, menunjukkan bahwa terdapat sub-grup perilaku pelanggan dengan perbedaan signifikan dalam pola transaksi maupun penggunaan fasilitas kredit. t-SNE sangat sensitif terhadap hubungan lokal, sehingga titik-titik yang berada dekat menunjukkan nasabah dengan karakteristik perilaku pembelian dan pembayaran yang mirip. Representasi ini mempertegas bahwa dataset memiliki struktur cluster yang jelas secara lokal, sehingga metode clustering nantinya dapat menemukan pembagian segmen pelanggan.
10 Clustering
10.1 Autoencoder → Clustering di latent space
##
## H2O is not running yet, starting it now...
##
## Note: In case of errors look at the following log files:
## C:\Users\ASUS\AppData\Local\Temp\RtmpWQiJEf\file30e47096295e/h2o_ASUS_started_from_r.out
## C:\Users\ASUS\AppData\Local\Temp\RtmpWQiJEf\file30e477ca736d/h2o_ASUS_started_from_r.err
##
##
## Starting H2O JVM and connecting: Connection successful!
##
## R is connected to the H2O cluster:
## H2O cluster uptime: 4 seconds 445 milliseconds
## H2O cluster timezone: Asia/Bangkok
## H2O data parsing timezone: UTC
## H2O cluster version: 3.44.0.3
## H2O cluster version age: 1 year, 11 months and 21 days
## H2O cluster name: H2O_started_from_R_ASUS_obd266
## H2O cluster total nodes: 1
## H2O cluster total memory: 3.55 GB
## H2O cluster total cores: 8
## H2O cluster allowed cores: 8
## H2O cluster healthy: TRUE
## H2O Connection ip: localhost
## H2O Connection port: 54321
## H2O Connection proxy: NA
## H2O Internal Security: FALSE
## R Version: R version 4.5.2 (2025-10-31 ucrt)
## | | | 0% | |======================================================================| 100%
## | | | 0% | |============== | 20% | |======================================================================| 100%
## | | | 0% | |======================================================================| 100%
Tabel latent space berikut menyajikan representasi baru dari data hasil ekstraksi fitur menggunakan autoencoder, di mana setiap observasi diproyeksikan ke dalam tiga komponen utama (DF.L2.C1, DF.L2.C2, dan DF.L2.C3). Nilai-nilai pada ketiga komponen ini merupakan hasil kompresi non-linear yang mempertahankan informasi paling penting dari fitur asli, sehingga data menjadi lebih ringkas namun tetap informatif untuk proses clustering selanjutnya. Setiap baris menunjukkan posisi suatu observasi dalam ruang latent tiga dimensi, sementara kolom “cluster” menampilkan hasil pengelompokan yang diperoleh setelah algoritma clustering diterapkan pada representasi latent tersebut. Dengan demikian, tabel ini menunjukkan bagaimana autoencoder berhasil mereduksi dimensi data sekaligus menghasilkan struktur representasi yang lebih optimal untuk proses segmentasi.
10.2 SOM → U-Matrix + cluster
U-Matrix menggambarkan jarak atau perbedaan antar-neuron dalam SOM. Warna yang lebih terang menunjukkan jarak yang lebih besar (lebih berbeda), sedangkan warna gelap menunjukkan jarak yang kecil (lebih mirip). Mayoritas sel berwarna merah hingga oranye, menunjukkan bahwa sebagian besar neuron memiliki kemiripan struktur data yang tinggi (jarak rendah). Ada beberapa area berwarna lebih terang (kekuningan), terutama di pojok kanan atas, mengindikasikan adanya segmen data yang berbeda signifikan dari cluster lainnya. Zona terang ini dapat dianggap sebagai indikasi pembentukan cluster yang terpisah atau outlier. Struktur data relatif homogen namun tetap mengandung satu atau dua area yang cukup berbeda sehingga berpotensi membentuk cluster sendiri.
Neuron Counts menunjukkan jumlah observasi yang jatuh pada setiap
neuron. Neuron dengan warna paling terang memiliki jumlah observasi yang
paling banyak, yang menunjukkan daerah data yang lebih padat atau lebih
populer. Secara umum, distribusi neuron tidak merata. Beberapa neuron
memiliki jumlah sangat banyak (putih–kuning), sementara sebagian lainnya
relatif sedikit (merah). Kondisi ini menunjukkan bahwa data memiliki
kecenderungan berkumpul pada pola-pola perilaku tertentu, bukan tersebar
merata. Terjadi konsentrasi perilaku pelanggan kartu kredit pada
beberapa pola dominan—misalnya pola transaksi tertentu lebih umum
dilakukan oleh mayoritas pengguna.
Plot ini memperlihatkan pembagian titik data ke dalam neuron yang telah mengalami proses clustering (k-means terhadap kode-book SOM atau hierarchical clustering). Sebagian besar neuron terisi titik berwarna merah, menunjukkan cluster mayoritas. Terdapat satu neuron berwarna hijau dan satu neuron berwarna biru yang membentuk cluster yang berbeda secara visual dari cluster lainnya. Cluster hijau dan biru terletak agak terpisah pada ruang SOM, mengindikasikan bahwa data pada cluster tersebut memiliki karakteristik yang cukup berbeda dari kelompok dominan. SOM berhasil menangkap adanya 1 cluster dominan dan 2 cluster minor yang memiliki pola perilaku keuangan berbeda, misalnya frekuensi transaksi, intensitas penggunaan kartu, atau nilai pembayaran.
Tabel ini menunjukkan setiap observasi beserta nilai fitur yang sudah dinormalisasi, serta cluster hasil SOM. Nilai pada kolom-kolom seperti BALANCE, PURCHASES, CASH_ADVANCE, dan FREKUENSI TRANSAKSI memberikan gambaran karakteristik masing-masing anggota cluster. Secara umum, Cluster 1 merupakan kelompok nasabah terbesar dengan karakteristik nilai balance, jumlah transaksi, serta frekuensi pembelian yang cenderung rendah hingga sedang, sehingga mencerminkan perilaku penggunaan kartu kredit yang moderat dan berada di bawah rata-rata populasi. Cluster 2 terdiri dari nasabah dengan pola penggunaan yang lebih aktif, ditandai oleh frekuensi transaksi yang lebih tinggi, pembelian one-off yang lebih intens, dan kecenderungan menggunakan fasilitas kredit secara lebih dinamis dibanding cluster 1. Sementara itu, Cluster 3 merepresentasikan segmen nasabah yang paling ekstrem, baik karena volume transaksi yang sangat tinggi, nilai cash advance yang besar, maupun frekuensi pemakaian kartu yang jauh di atas rata-rata, sehingga kelompok ini terlihat jelas terpisah pada peta SOM sebagai outlier berperilaku intensif.
10.3 Spectral → adjacency matrix + cluster
## cluster_spectral
## 1 2 3
## 2046 3640 3264
Hasil spectral clustering menghasilkan 3 cluster dengan ukuran yang relatif seimbang: cluster 1 sebanyak 2.046 observasi, cluster 2 sebanyak 3.640, dan cluster 3 sebanyak 3.264. Komposisi ini menunjukkan bahwa struktur data terbagi ke dalam tiga kelompok besar tanpa dominasi ekstrem oleh satu cluster, sehingga pemisahan berbasis graf (laplacian eigenmaps) berhasil mengidentifikasi tiga komunitas data yang cukup jelas dan proporsional.
Plot eigen embedding memperlihatkan struktur tiga cluster yang terbentuk berdasarkan dekomposisi eigen dari adjacency matrix. Cluster hijau tampak paling terpisah dan membentuk pola menyebar ke kanan, menunjukkan komunitas data yang berbeda secara kuat dalam struktur graf. Sementara itu, cluster biru dan merah memiliki tumpang tindih yang lebih tinggi, mencerminkan hubungan kedekatan manifold yang lebih kompleks. Pola penyebaran ini menegaskan bahwa spectral clustering efektif memisahkan kelompok berdasarkan hubungan non-linear dalam ruang graf.
11 Visualisasi Hasil
11.1 PCA 2D PerCluster
11.1.1 PCA Autoencoder
Visualisasi PCA terhadap latent space autoencoder menunjukkan pemisahan cluster yang relatif jelas antara tiga kelompok. Autoencoder berhasil memetakan data ke representasi berdimensi rendah yang tetap mempertahankan struktur variasinya, sehingga cluster hijau, biru, dan merah tampak membentuk area distribusi yang berbeda. Penyebaran yang teratur dan separasi yang stabil mengindikasikan bahwa latent representation cukup informatif dan menjadi basis yang baik untuk clustering berbasis fitur terkompresi.
11.1.2 PCA SOM
Visualisasi PCA pada hasil SOM menunjukkan bahwa distribusi cluster masih relatif tumpang tindih, dengan dominasi cluster merah yang menyebar luas di area ruang PCA. Hal ini menandakan bahwa SOM lebih menekankan pemetaan topologis daripada pemisahan geometris, sehingga batas antar cluster tidak setegas metode lain. Meski demikian, pola penyebaran tetap mencerminkan adanya perbedaan karakteristik nilai input yang dipetakan oleh neuron-neuron SOM.
11.1.3 PCA Spectral Clusters
Hasil PCA dari spectral clustering memperlihatkan pemisahan cluster yang lebih terstruktur, terutama cluster hijau yang menempati wilayah kompak di bagian kiri bawah. Cluster biru dan merah menunjukkan penyebaran lebih luas, namun tetap membentuk pola densitas yang membedakan keduanya. Distribusi ini konsisten dengan karakteristik spectral clustering yang kuat dalam mengidentifikasi komunitas berdasarkan hubungan graf, dan mengonfirmasi pemisahan cluster yang muncul pada eigen embedding sebelumnya.
11.1.4 Perbandingan berdasarkan Visualisasi PCA
Perbandingan visualisasi PCA dari tiga model clustering menunjukkan perbedaan signifikan dalam kemampuan masing-masing metode dalam memisahkan struktur kelompok data. Autoencoder memberikan pemisahan paling jelas dengan tiga cluster yang membentuk area distribusi berbeda dan relatif teratur, menandakan bahwa latent space yang dihasilkan sangat representatif terhadap variasi fitur asli. Sebaliknya, hasil SOM tampak memiliki tumpang tindih antar cluster yang cukup besar, terutama karena SOM memetakan data berdasarkan kedekatan topologis, bukan pemisahan geometris, sehingga cluster yang terbentuk lebih longgar dan kurang terdefinisi dalam ruang PCA. Pada spectral clustering, cluster yang terbentuk terlihat lebih tegas dibanding SOM, dengan satu cluster muncul sangat kompak dan dua lainnya menyebar namun tetap terstruktur, sejalan dengan sifat metode yang memanfaatkan struktur graf untuk mendeteksi komunitas non-linear. Secara keseluruhan, PCA menunjukkan bahwa autoencoder menghasilkan pemisahan cluster paling baik, spectral clustering berada di posisi tengah dengan struktur yang jelas namun tidak sepenuhnya terpisah, dan SOM menghasilkan pemisahan paling lemah karena karakteristik mapping-nya yang lebih fokus pada preservasi topologi.
11.2 Heatmap
11.2.1 Heatmap Autoencoder
Heatmap Autoencoder menunjukkan pola perbedaan mean antar-klaster yang cukup jelas pada beberapa variabel utama, terutama BALANCE, CASH_ADVANCE, dan ONEOFF_PURCHASES. Klaster 1 cenderung memiliki nilai yang lebih rendah pada hampir semua variabel transaksi, menunjukkan profil nasabah dengan aktivitas keuangan minimal. Klaster 2 memiliki nilai mean sedang dan relatif stabil di hampir semua dimensi perilaku transaksi, mengindikasikan kelompok pengguna dengan pola penggunaan kartu kredit yang moderat dan konsisten. Sementara itu, Klaster 3 menampilkan nilai mean lebih tinggi pada variabel seperti PURCHASES, CASH_ADVANCE, dan PAYMENTS, mencerminkan kelompok pengguna dengan intensitas transaksi yang tinggi. Secara keseluruhan, Autoencoder berhasil memisahkan kelompok dengan intensitas keuangan rendah, sedang, dan tinggi.
11.2.2 Heatmap SOM
Heatmap SOM memperlihatkan pola segmentasi yang lebih halus dan tidak se-kontras Autoencoder, namun tetap mampu menampilkan perbedaan karakteristik antar-klaster. Klaster 1 memiliki rata-rata yang relatif rendah pada sebagian besar variabel, terutama pada BALANCE dan ONEOFF_PURCHASES. Klaster 2 memperlihatkan mean yang lebih tinggi pada variabel seperti PAYMENTS dan PURCHASES_INSTALLMENTS_FREQUENCY, menandakan pelanggan yang aktif dalam pembayaran dan cicilan. Klaster 3 menunjukkan mean moderat namun meningkat pada beberapa variabel frekuensi transaksi. Segmentasi SOM cenderung menghasilkan klaster dengan perbedaan yang lebih gradual, mencerminkan pemetaan berbasis grid SOM yang menangkap kontinum perilaku pelanggan.
11.2.3 Heatmap Spectral Clusters
Heatmap Spectral Clustering memperlihatkan pola kelompok yang cukup mirip dengan Autoencoder, namun perbedaannya lebih tegas pada variabel berbasis frekuensi, seperti PURCHASES_TRX dan CASH_ADVANCE_FREQ. Klaster 1 muncul sebagai kelompok dengan mean rendah hampir di seluruh variabel, mengindikasikan nasabah dengan aktivitas rendah. Klaster 2 berada pada level menengah dan menampilkan pola belanja yang lebih seimbang antara transaksi sekali bayar dan cicilan. Klaster 3 menonjol dengan mean tinggi pada variabel transaksi dan pembayaran, menunjukkan kelompok pengguna paling aktif dan intensif. Secara keseluruhan, Spectral Clustering memberikan segmentasi yang jelas berbasis struktur graf ketetanggaan antar-observasi.
11.2.4 Perbandingan berdasarkan Visualisasi Heatmap
Perbandingan heatmap dari ketiga model; Autoencoder, SOM, dan Spectral Clustering menunjukkan bahwa masing-masing algoritma menghasilkan segmentasi dengan karakteristik yang berbeda dalam hal kontras nilai mean antar variabel dan kejelasan pemisahan antar-klaster. Model Autoencoder menghasilkan pola paling kontras, dengan perbedaan mean yang jelas antara klaster rendah, sedang, dan tinggi pada variabel-variabel utama seperti BALANCE, CASH_ADVANCE, dan PURCHASES. Hal ini menunjukkan bahwa representasi laten dari Autoencoder mampu menyoroti perbedaan ekstrem antar-perilaku pelanggan. Sebaliknya, SOM menampilkan pola mean yang lebih halus dan gradual, di mana perbedaan antar-klaster tetap terlihat tetapi tidak se-tegas Autoencoder. Hal ini konsisten dengan sifat SOM yang bekerja berbasis grid topologi sehingga klaster cenderung memiliki kemiripan relatif lebih tinggi. Spectral Clustering berada di tengah-tengah: model ini memunculkan pemisahan klaster yang cukup jelas seperti Autoencoder, namun fokus utamanya lebih kuat pada variabel berbasis frekuensi dan intensitas transaksi. Klaster dalam Spectral Clustering tampak stabil dan memiliki kontras yang moderat tetapi terstruktur. Secara keseluruhan, Autoencoder memberikan segmentasi paling tajam, SOM memberikan segmentasi yang lebih lembut dan kontinyu, sementara Spectral Clustering menghasilkan kelompok yang seimbang dengan pemisahan yang jelas tetapi tidak seekstrem Autoencoder.
11.3 Dendogram
11.4 Dendogram Autoencoder
Dendrogram Autoencoder menampilkan struktur hierarki yang memperlihatkan tiga klaster yang relatif terpisah dengan jarak linkage yang cukup signifikan, terutama antara klaster dengan aktivitas tinggi dan rendah. Struktur cabang memperlihatkan bahwa klaster rendah aktivitas (Cluster 1) membentuk grup yang kompak, sedangkan klaster tinggi aktivitas (Cluster 3) memiliki variasi internal yang lebih besar. Hal ini mengindikasikan bahwa Autoencoder mampu menangkap representasi laten data yang memperjelas batas antar-segmen perilaku pelanggan.
11.5 Dendogram SOM
Dendrogram SOM menampilkan pemetaan hierarkis yang menunjukkan bahwa hasil cluster SOM memiliki struktur jarak yang lebih rapat antar-cabang dibanding Autoencoder. Cabang dari klaster 1, 2, dan 3 saling bertumpuk dalam beberapa bagian, mencerminkan bahwa SOM membentuk klaster yang lebih berdekatan secara jarak Euclidean dalam ruang data yang dilatihkan. Hal ini mencerminkan karakter SOM yang berbasis topologi grid, sehingga beberapa klaster dapat memiliki kedekatan struktural meskipun berbeda dalam interpretasi makna transaksi.
11.5.1 Dendogram Spectral Clusters
Dendrogram Spectral Clustering menunjukkan pemisahan yang tegas antar-tiga klaster, dengan cabang yang relatif bersih dan batas penggabungan yang berbeda pada linkage tinggi. Klaster aktivitas tinggi dan rendah tampak terpisah dengan jarak hierarki yang besar, mencerminkan efektivitas metode spectral dalam menangkap struktur graf dan hubungan kedekatan antar-data yang non-linear. Dibanding dua metode lain, struktur dendrogram Spectral terlihat lebih stabil, dengan grup klaster yang kompak dan konsisten.
11.5.2 Perbandingan berdasarkan Visualisasi Dendogram
Visualisasi dendrogram dari ketiga model; Autoencoder, SOM, dan Spectral Clustering menunjukkan perbedaan yang signifikan dalam pola pemisahan hierarkis antar klaster. Dendrogram Autoencoder menampilkan struktur pohon yang lebih terfragmentasi dengan banyak percabangan tajam, mengindikasikan model ini mampu menangkap variasi internal yang besar di dalam data sehingga menghasilkan klaster yang sangat terpisah. Sebaliknya, dendrogram SOM terlihat lebih kompak dan memiliki percabangan yang lebih halus, mencerminkan karakteristik SOM yang memetakan data berdasarkan kedekatan topologis sehingga klaster tampak lebih homogen dan transisinya lebih gradual. Sementara itu, dendrogram Spectral Clustering menunjukkan pemisahan yang cukup jelas namun lebih seimbang: percabangan tidak seagresif Autoencoder, tetapi juga tidak sesederhana SOM, menandakan bahwa pendekatan berbasis eigenvector ini membentuk klaster yang terstruktur dengan baik dan memiliki jarak antar kelompok yang konsisten. Secara keseluruhan, Autoencoder menghasilkan segmentasi paling tegas, SOM menghasilkan klaster yang lebih lentur, dan Spectral Clustering berada di posisi tengah dengan struktur klaster yang stabil dan proporsional.
12 Kesimpulan dan Rekomendasi
12.1 Kesimpulan
Penelitian ini bertujuan untuk membangun pendekatan hybrid clustering menggunakan Autoencoder, Self-Organizing Map (SOM), dan Spectral Clustering untuk melakukan segmentasi pelanggan kartu kredit berdasarkan perilaku transaksi. Melalui serangkaian tahapan preprocessing seperti cleaning, imputasi, standardisasi, serta reduksi dimensi (PCA, UMAP, t-SNE), diperoleh dataset yang bersih, terstandarisasi, dan representatif untuk proses clustering. Hasil eksplorasi awal menunjukkan bahwa sebagian besar variabel memiliki distribusi right-skewed dengan keberadaan nilai ekstrem, menegaskan bahwa perilaku pelanggan sangat heterogen dan cocok untuk pendekatan unsupervised.
Autoencoder berhasil menghasilkan representasi laten berdimensi rendah yang lebih stabil dan bebas noise dibandingkan fitur asli. Representasi ini kemudian dipetakan oleh SOM untuk mengekstraksi struktur topologis dan memberikan gambaran visual tentang pola kedekatan antar data. Tahap akhir menggunakan Spectral Clustering yang memanfaatkan struktur non-linear dalam embedded space untuk menghasilkan cluster yang lebih akurat. Berdasarkan evaluasi melalui Silhouette Score, Davies–Bouldin Index, Calinski–Harabasz Index, serta stability dan runtime, metode hybrid—terutama ketika mengombinasikan latent space Autoencoder dengan Spectral Clustering—menunjukkan performa paling baik. Pendekatan ini mampu mengidentifikasi segmentasi pelanggan dengan lebih jelas dibandingkan clustering langsung pada fitur asli atau embedding tunggal seperti PCA. Dengan demikian, penelitian ini membuktikan bahwa metode hybrid yang menggabungkan representasi non-linear, topological mapping, dan graf-based clustering dapat meningkatkan kualitas segmentasi pelanggan secara signifikan.
12.2 Rekomendasi
Berdasarkan temuan dan evaluasi hasil penelitian, terdapat beberapa rekomendasi yang dapat dipertimbangkan untuk pengembangan penelitian selanjutnya maupun implementasi pada dunia industri. Pertama, penelitian lanjutan dapat mengeksplorasi arsitektur Autoencoder yang lebih kompleks seperti Variational Autoencoder (VAE) atau Sparse Autoencoder untuk menghasilkan representasi laten yang lebih kaya dan lebih informatif. Selain itu, ukuran dan parameter SOM dapat dioptimalkan lebih lanjut agar pemetaan topologis lebih stabil dan lebih mudah diinterpretasikan. Spektral Clustering juga berpotensi ditingkatkan melalui pendekatan adaptive similarity (misalnya adaptive sigma atau k-NN similarity graph) untuk mengurangi sensitivitas terhadap parameter kernel.
Untuk implementasi bisnis, perusahaan dapat menggunakan hasil cluster untuk strategi pemasaran terpersonalisasi, deteksi pelanggan berisiko (misalnya heavy users cash advance), atau perancangan produk kredit dengan fitur dan limit berbeda sesuai segmen. Disarankan juga untuk memasukkan data tambahan seperti demografi, riwayat pembayaran, atau perilaku transaksi dari waktu ke waktu agar model segmentasi menjadi lebih komprehensif. Terakhir, diperlukan pengujian model secara berkala karena perilaku pelanggan dapat berubah dari waktu ke waktu; dengan demikian, pembaruan clustering secara periodik sangat penting agar segmentasi tetap relevan dan akurat.
Kalau kamu mau, aku bisa buatkan juga narasi pembahasan hasil, visualisasi cluster, interpretasi tiap cluster, atau bab saran metodologis tambahan untuk melengkapi laporan.