Assigment Week 11

1 PENDAHULUAN

1.1 Konteks dan Latar Belakang

Analisis kualitas wine merupakan salah satu topik penting dalam industri makanan dan minuman, karena kualitas produk dipengaruhi oleh berbagai parameter kimia. Wine Quality – White Wine Dataset berisi 12 variabel kimia seperti acidity, sulfur dioxide, chlorides, alkohol, dan density, yang semuanya memiliki hubungan non-linear dan saling memengaruhi kualitas akhir produk. Karena label kualitas diberikan dalam bentuk nilai 0–10, dataset ini cocok menjadi studi untuk eksplorasi pola, segmentasi kualitas, dan pemahaman karakteristik kimia lewat pendekatan unsupervised.

Dataset ini tidak seimbang dan memiliki kompleksitas struktural, sehingga metode clustering biasa sering gagal mengungkapkan struktur laten dengan baik. Oleh karena itu, pendekatan deep clustering, autoencoder, SOM, dan spectral clustering digunakan untuk menganalisis pola kualitas wine secara lebih mendalam.

1.1.1 Pertanyaan riset

Penelitian ini berupaya menjawab pertanyaan berikut:

Bagaimana struktur klaster yang terbentuk dari data kimia wine ketika dianalisis menggunakan tiga pendekatan berbeda: Autoencoder, Self-Organizing Map (SOM), dan Spectral Clustering?
Apakah representasi laten dari Autoencoder dapat meningkatkan separasi cluster dibandingkan metode konvensional seperti SOM dan Spectral Clustering?
Bagaimana perbedaan karakteristik kimia pada setiap cluster?
Apakah cluster yang terbentuk memiliki keterkaitan dengan label kualitas wine meskipun prosesnya unsupervised?

1.1.2 Mengapa Clustering Relevan Untuk Studi Ini?

Clustering penting karena kualitas wine memiliki hubungan non-linear dengan fitur kimianya, sehingga pola alami sulit terlihat tanpa pendekatan unsupervised. Selain itu, beberapa label tidak konsisten sehingga analisis tanpa label lebih tepat. Beragam metode seperti Autoencoder, SOM, dan Spectral Clustering membantu mengungkap struktur laten berbeda, sementara deep clustering memberikan representasi yang lebih stabil untuk memahami perbedaan karakteristik kimia.

1.2 Introduction Deep Clustering

Deep Clustering adalah metode yang menggabungkan deep learning dengan unsupervised clustering. Model belajar membuat representasi laten yang lebih terstruktur, lalu melakukan clustering pada ruang laten tersebut secara end-to-end sehingga hasil klaster lebih akurat dibandingkan clustering langsung pada data mentah.

1.3 Rumus Inti Deep Clustering

Formulasi dasar deep clustering terdiri dari tiga komponen utama, yaitu representasi laten, pengukuran jarak, dan fungsi objektif gabungan.

Representasi Laten \[ z_i = f_{\theta}(x_i) \]
Jarak ke Pusat Klaster \[ d_{ij} = \| z_i - \mu_j \|^2 \]
Fungsi Objektif Gabungan \[ \mathcal{L} = \mathcal{L}_{\text{repr}} + \lambda\, \mathcal{L}_{\text{cluster}} \]

Formulasi ini merupakan inti fundamental dari pendekatan deep clustering, di mana model deep learning menghasilkan representasi laten yang dioptimalkan bersamaan dengan tujuan pengelompokan.

1.4 Cara Kerja Deep Clustering

Pretraining : Melatih autoencoder untuk mendapatkan sebuah representasi laten yang stabil.
Inisialisasi Klaster : Menjalankan K-Means pada latent space untuk mendapatkan centroid awal.
Soft Assignment : Menghitung probabilitas keanggotaan klaster menggunakan Student-t kernel.
Target Distribution : Membangun distribusi target untuk memperkuat klaster dominan.
Fine-Tuning End-to-End: Update encoder + centroid secara iteratif dengan meminimalkan KL Divergence hingga konvergen.

1.5 Hyperparameter Utama Deep Clustering

Jumlah klaster (k) sangat menentukan hasil.
Dimensi latent space (contoh: 10–64).
Learning rate dan jumlah epoch (pretraining + fine-tuning).
Arsitektur encoder (jumlah layer & neuron).
Batch size.

1.6 Kelebihan & Keterbatasan

Deep clustering unggul karena mampu menghasilkan klaster yang lebih akurat melalui representasi laten yang kaya, efektif pada data besar dan kompleks, serta lebih tahan terhadap noise. Namun, metode ini juga membutuhkan komputasi yang tinggi, serta sensitif terhadap jumlah klaster, sehingga hasilnya kurang stabil bila inisialisasi buruk, dan interpretasinya sulit karena fitur laten sulit dijelaskan secara intuitif.

2 Landasan Teori

2.1 Autoencoder (Unsupervised Deep Clustering)

Autoencoder merupakan arsitektur jaringan saraf tiruan berbasis unsupervised learning yang bertujuan mempelajari representasi data berdimensi lebih rendah (latent representation) dengan meminimalkan kesalahan rekonstruksi antara data input dan output. Dalam konteks clustering, representasi laten ini digunakan karena mampu menangkap hubungan non-linear yang tidak dapat direpresentasikan oleh metode reduksi linear.

2.1.1 Rumus Inti Autoencoder

Representasi Input : \[ \mathbf{x}_i \in \mathbb{R}^d \]
Encoder : \[ \mathbf{h}_i = f\left(\mathbf{W}_e \mathbf{x}_i + \mathbf{b}_e\right) \]
Decoder : \[ \hat{\mathbf{x}}_i = g\left(\mathbf{W}_d \mathbf{h}_i + \mathbf{b}_d\right) \]
Fungsi Loss (Reconstruction Error) : \[ L = \frac{1}{n} \sum_{i=1}^{n} \left\| \mathbf{x}_i - \hat{\mathbf{x}}_i \right\|^2 \]
Optimasi Parameter : \[ \min_{\mathbf{W}_e, \mathbf{b}_e, \mathbf{W}_d, \mathbf{b}_d} L \]
Clustering di Ruang Laten : \[ \mathcal{C} = \text{Cluster}\left(\{\mathbf{h}_i\}_{i=1}^n\right) \]

2.1.2 Cara kerja Autoencoder

Data dinormalisasi dan dimasukkan ke encoder untuk menghasilkan vektor laten. Decoder merekonstruksi data dari vektor laten tersebut. Setelah model terlatih, vektor laten digunakan sebagai input untuk proses clustering karena memiliki dimensi lebih rendah dan struktur data yang lebih representatif.

2.1.3 Hyperparameter Utama Autoencoder

Dimensi laten
jumlah layer tersembunyi
jumlah neuron per layer
fungsi aktivasi
epoch
batch size
optimizer
learning rate.

2.1.4 Kelebihan / keterbatasan praktis

Autoencoder efektif menangani data berdimensi tinggi dan hubungan non-linear. Namun, arsitektur yang tidak tepat dapat menyebabkan overfitting dan waktu komputasi yang relatif tinggi.

2.2 Self-Organizing Map (SOM)

Self-Organizing Map (SOM) adalah metode neural unsupervised yang memproyeksikan data berdimensi tinggi ke dalam peta dua dimensi dengan mempertahankan relasi topologis antar data, sehingga cocok untuk visualisasi dan eksplorasi pola.

2.2.1 Rumus Inti Self-Organizing Map (SOM)

Representasi Data : \[ \mathbf{x}_i \in \mathbb{R}^d \]
Bobot Neuron : \[ \mathbf{w}_j(t) \in \mathbb{R}^d \]
Penentuan Best Matching Unit (BMU) : \[ j^* = \arg\min_j \left\| \mathbf{x}_i - \mathbf{w}_j(t) \right\| \]
Fungsi Ketetanggaan (Gaussian) : \[ h_{j,j^*}(t) = \exp\left( -\frac{ \left\| \mathbf{r}_j - \mathbf{r}_{j^*} \right\|^2 }{ 2\sigma^2(t) } \right) \]
Update Bobot : \[ \mathbf{w}_j(t+1) = \mathbf{w}_j(t) + \alpha(t)\, h_{j,j^*}(t)\, \left( \mathbf{x}_i - \mathbf{w}_j(t) \right) \]

2.2.2 Cara kerja Self-Organizing Map (SOM)

Pada setiap iterasi, setiap data dibandingkan dengan seluruh neuron pada grid SOM untuk menemukan neuron dengan jarak paling kecil, yang disebut Best Matching Unit (BMU). Setelah BMU ditemukan, bobot BMU dan neuron-neuron di sekelilingnya diperbarui untuk bergerak mendekati data tersebut. Proses pembaruan ini dilakukan berulang dengan learning rate dan radius tetangga yang semakin mengecil, sehingga peta secara bertahap membentuk struktur yang terorganisir dan merepresentasikan pola topologi data asli.

2.2.3 Hyperparameter Utama Self-Organizing Map (SOM)

Ukuran grid
learning rate
fungsi tetangga
jumlah iterasi (rlen).

2.2.4 Kelebihan / keterbatasan praktis

SOM menghasilkan visualisasi yang interpretatif dan mudah dianalisis secara kualitatif, namun pemilihan ukuran grid sangat mempengaruhi hasil dan tidak selalu menghasilkan pemisahan cluster yang optimal.

2.3 Spectral Clustering

Spectral Clustering adalah metode clustering berbasis graf yang menggunakan spektrum eigen dari Graph Laplacian untuk memetakan data ke ruang berdimensi lebih rendah sebelum dilakukan pengelompokan.

2.3.1 Rumus inti Spectral Clustering

Representasi Data : \[ \mathbf{x}_i \in \mathbb{R}^d \]
Matriks Similarity (RBF Kernel) : \[ W_{ij} = \exp\left( -\frac{ \left\| \mathbf{x}_i - \mathbf{x}_j \right\|^2 }{ 2\sigma^2 } \right) \]
Degree Matrix : \[ D_{ii} = \sum_{j=1}^{n} W_{ij} \]
Graph Laplacian (Unnormalized) : \[ \mathbf{L} = \mathbf{D} - \mathbf{W} \]
Masalah Eigen : \[ \mathbf{L} \mathbf{u}_k = \lambda_k \mathbf{u}_k \]
Embedding Spektral : \[ \mathbf{U} = \left[ \mathbf{u}_1, \mathbf{u}_2, \ldots, \mathbf{u}_K \right] \]
Clustering Akhir : \[ \mathcal{C} = \text{K-Means}(\mathbf{U}) \]

2.3.2 Cara kerja Spectral Clustering

Pertama data direpresentasikan sebagai graf berbobot yang menggambarkan tingkat kemiripan antar titik data. Dari graf tersebut dihitung matriks Laplacian, kemudian diekstraksi eigenvector-eigenvector utama yang digunakan sebagai ruang representasi (embedding) baru dengan dimensi lebih rendah. Pada ruang embedding ini, struktur cluster menjadi lebih mudah dipisahkan, sehingga algoritma sederhana seperti K-Means dapat digunakan untuk membentuk cluster akhir.

2.3.3 Hyperparameter Utama Spectral Clustering

Jenis affinity (RBF atau k-nearest neighbors)
parameter sigma
jumlah tetangga
jumlah cluster.

2.3.4 Kelebihan / keterbatasan praktis

Spectral Clustering sangat efektif untuk pola non-linear dan non-konveks, namun sensitif terhadap pemilihan parameter dan memiliki kompleksitas komputasi yang tinggi.

3 Data dan Pra-Pemrosesan

3.1 Sumber & loading data

Dataset yang digunakan adalah Wine Quality White Wine Dataset, yaitu dataset publik yang berisi karakteristik kimia dari sampel wine putih (white vinho verde) dari Minho, Portugal. Dataset ini umum dipakai dalam machine learning untuk analisis kualitas dan eksperimen clustering.

Rincian dataset:

Nama: Wine Quality – White Wine
Sumber: UCI Machine Learning Repository
URL: https://archive.ics.uci.edu/ml/datasets/wine+quality
DOI: 10.24432/C56S3T
Jumlah sampel: 4.898
Variabel: 12 fitur kimia + 1 label kualitas
Jenis data: Hasil analisis kimia dan penilaian kualitas (0–10)

Dataset ini bersifat numerik dan multidimensional, sehingga sesuai untuk analisis clustering.

4 Eksplorasi Data (Exploratory Data Analysis)

4.1 Summary Statistik (Descriptive Summary)

##  fixed.acidity    volatile.acidity  citric.acid     residual.sugar  
##  Min.   : 3.800   Min.   :0.0800   Min.   :0.0000   Min.   : 0.600  
##  1st Qu.: 6.300   1st Qu.:0.2100   1st Qu.:0.2700   1st Qu.: 1.700  
##  Median : 6.800   Median :0.2600   Median :0.3200   Median : 5.200  
##  Mean   : 6.855   Mean   :0.2782   Mean   :0.3342   Mean   : 6.391  
##  3rd Qu.: 7.300   3rd Qu.:0.3200   3rd Qu.:0.3900   3rd Qu.: 9.900  
##  Max.   :14.200   Max.   :1.1000   Max.   :1.6600   Max.   :65.800  
##    chlorides       free.sulfur.dioxide total.sulfur.dioxide    density      
##  Min.   :0.00900   Min.   :  2.00      Min.   :  9.0        Min.   :0.9871  
##  1st Qu.:0.03600   1st Qu.: 23.00      1st Qu.:108.0        1st Qu.:0.9917  
##  Median :0.04300   Median : 34.00      Median :134.0        Median :0.9937  
##  Mean   :0.04577   Mean   : 35.31      Mean   :138.4        Mean   :0.9940  
##  3rd Qu.:0.05000   3rd Qu.: 46.00      3rd Qu.:167.0        3rd Qu.:0.9961  
##  Max.   :0.34600   Max.   :289.00      Max.   :440.0        Max.   :1.0390  
##        pH          sulphates         alcohol         quality     
##  Min.   :2.720   Min.   :0.2200   Min.   : 8.00   Min.   :3.000  
##  1st Qu.:3.090   1st Qu.:0.4100   1st Qu.: 9.50   1st Qu.:5.000  
##  Median :3.180   Median :0.4700   Median :10.40   Median :6.000  
##  Mean   :3.188   Mean   :0.4898   Mean   :10.51   Mean   :5.878  
##  3rd Qu.:3.280   3rd Qu.:0.5500   3rd Qu.:11.40   3rd Qu.:6.000  
##  Max.   :3.820   Max.   :1.0800   Max.   :14.20   Max.   :9.000

4.2 Missing Value

4.3 Cek Tipe Variabel

4.4 Interpretasi Umum

Eksplorasi Data Awal (EDA) dilakukan untuk memahami karakteristik dasar dataset sebelum memasuki tahap pemodelan. Dari hasil EDA, terlihat gambaran statistik seperti sebaran nilai, kecenderungan pusat, dan variabilitas tiap variabel sehingga kita dapat menilai apakah ada pola ekstrem atau potensi outlier. Pemeriksaan missing value membantu memastikan kualitas data dan mengidentifikasi kebutuhan imputasi agar model tidak bias.

Analisis tipe variabel juga penting karena menentukan perlakuan pada tahap preprocessing, seperti encoding untuk variabel kategorikal atau scaling untuk numerik. Secara keseluruhan, EDA dilakukan untuk memastikan dataset bersih, konsisten, dan siap digunakan sehingga proses pemodelan berikutnya dapat menghasilkan hasil yang valid dan reliabel.

5 Pra-proses Data

5.1 Cleaning Data

## Jumlah missing value tiap kolom:

##        fixed_acidity     volatile_acidity          citric_acid 
##                    0                    0                    0 
##       residual_sugar            chlorides  free_sulfur_dioxide 
##                    0                    0                    0 
## total_sulfur_dioxide              density                  p_h 
##                    0                    0                    0 
##            sulphates              alcohol              quality 
##                    0                    0                    0

## 
## Jumlah baris setelah CLEANING: 3961

## Jumlah kolom: 12

Setelah dilakukan proses cleaning, dataset Wine Quality White ternyata sudah dalam kondisi baik. Tidak ditemukan missing value, nilai negatif, ataupun duplikasi, sehingga tidak ada baris yang perlu dihapus atau diperbaiki. Semua variabel juga sudah bertipe numerik dan siap digunakan untuk tahap pra-proses selanjutnya. Dengan kondisi ini, data dapat langsung masuk ke proses scaling dan pemodelan tanpa perlu pembersihan tambahan.

5.2 Imputasi

## Jumlah total missing sebelum imputasi: 0

## Jumlah total missing setelah imputasi: 0

Imputasi dilakukan untuk mengganti nilai hilang (NA) agar model tidak error dan menjaga kualitas analisis. Karena dataset wine biasanya numerik seluruhnya, metode yang paling umum adalah mean/median imputation. Dan setelah dilakukan imputasi median, seluruh nilai missing berhasil digantikan sehingga dataset menjadi lengkap tanpa kehilangan informasi.

5.3 Encoding

Encoding digunakan untuk mengubah variabel kategorikal menjadi representasi numerik agar dapat diproses oleh algoritma machine learning. Karena dataset winequality-white tidak memiliki variabel kategorikal, proses encoding hanya memastikan bahwa semua kolom sudah numerik dan tidak perlu transformasi tambahan.

5.4 Scaling

Scaling diperlukan agar setiap fitur berada pada skala yang sama sehingga algoritma berbasis jarak (misalnya PCA, k-means, SOM, spectral clustering) tidak berat sebelah ke variabel yang memiliki rentang besar. Rumus standar scaling menggunakan

Standardization (Z-Score):

\[ x' = \frac{x - \mu}{\sigma} \] di mana

𝜇= mean
𝜎= standard deviation

Semua fitur numerik kini memiliki mean ≈ 0 dan standar deviasi ≈ 1 sehingga seluruh variabel berada pada skala yang setara dan siap dipakai untuk algoritma clustering.

6 Teknik Reduksi Dimensi

PCA dilakukan karena dataset memiliki banyak variabel yang saling berkorelasi. Reduksi dimensi ini membantu merangkum informasi utama ke dalam komponen yang lebih sederhana, mengurangi noise, mempermudah visualisasi pola, dan meningkatkan stabilitas algoritma clustering.

##             PC1        PC2
## [1,] -3.7011442 -0.2882912
## [2,]  0.4845050  0.2963050
## [3,] -0.2620925 -1.1427305
## [4,] -1.4880901  0.1892786
## [5,] -0.2109015  0.7516372
## [6,]  0.4795457 -1.2748218

##     PC1     PC2 
## 0.27749 0.13407

6.1 Interpretasi Hasil PCA

PCA berhasil merangkum seluruh variabel menjadi dua komponen utama, yaitu PC1 dan PC2, sehingga data yang awalnya berdimensi banyak menjadi lebih sederhana tanpa kehilangan struktur pentingnya.
PC1 menjadi komponen yang paling dominan, karena mampu menjelaskan 27.7% variasi total, sehingga pergerakan nilai pada PC1 mencerminkan pola umum terbesar dari dataset setelah scaling.
PC2 menambah 13.4% informasi tambahan, menangkap variasi yang tidak dimiliki PC1. Artinya, PC2 membantu membedakan observasi yang sebelumnya terlihat mirip di PC1.
Nilai PC1 dan PC2 (misalnya −3.70, 0.48, −0.26, dst.) menunjukkan posisi setiap sampel di ruang komponen utama. Sampel dengan nilai PC1/PC2 yang jauh dari nol menunjukkan karakteristik yang cukup berbeda dibandingkan sampel lainnya.
Kombinasi PC1–PC2 ini menjadi representasi baru yang lebih padat, tetapi tetap mempertahankan struktur data yang relevan. Ini sangat berguna sebelum masuk ke deep clustering, karena algoritma clustering akan bekerja lebih stabil pada data yang sudah tereduksi dimensi dan tidak didominasi variabel tertentu.

Dengan demikian, PC1 & PC2 sudah cukup digunakan sebagai input awal untuk visualisasi, pemeriksaan pola, dan langkah awal pengelompokan, karena keduanya mewakili informasi paling penting dari dataset.

7 Implementasi dan Evaluasi Model Clustering

7.1 Autoencoder-based Clustering

7.1.1 Model Selection dan Model Evaluation

7.1.2 Visualisasi Hasil Parameter

7.1.3 Interpretasi

Hasil evaluasi menunjukkan bahwa kualitas pengelompokan pada ruang laten berbasis PCA berada pada tingkat cukup baik.

Silhouette Score (0,352) mengindikasikan kohesi intra-cluster dan pemisahan antar-cluster yang moderat, dengan sedikit tumpang tindih antar cluster.
Davies–Bouldin Index (0,868) menunjukkan cluster yang cukup kompak meskipun pemisahan belum sepenuhnya optimal.
Calinski–Harabasz Index (3035,161) menandakan bahwa variansi antar-cluster masih lebih dominan dibandingkan variansi di dalam cluster.

Secara keseluruhan, PCA mampu membentuk struktur cluster yang stabil dan informatif, meskipun sifat linear model membatasi tingkat pemisahan cluster yang lebih tajam.

7.2 Self-Organizing Map (SOM)

7.2.1 Model Selection dan Model Evaluation

7.2.2 Visualisasi Hasil Parameter

7.2.3 Interpretasi

Hasil evaluasi menunjukkan bahwa kualitas pengelompokan menggunakan Self-Organizing Map (SOM) berada pada tingkat rendah hingga menengah, sesuai dengan karakteristik SOM yang lebih menekankan preservasi topologi data dibandingkan pemisahan cluster yang tajam.

Silhouette Score (0,208) menunjukkan bahwa kohesi intra-cluster masih relatif lemah dan pemisahan antar-cluster belum terbentuk secara jelas, sehingga sebagian data berada dekat dengan batas cluster.
Davies–Bouldin Index (1,102) mengindikasikan adanya kemiripan yang cukup tinggi antar cluster, menandakan bahwa struktur cluster belum sepenuhnya kompak.
Calinski–Harabasz Index (6,292) mencerminkan bahwa rasio variansi antar-cluster terhadap intra-cluster masih terbatas, yang menunjukkan perbedaan antar cluster belum dominan.

Secara keseluruhan, hasil ini menegaskan bahwa SOM mampu membentuk struktur pengelompokan dasar yang konsisten, namun kualitas pemisahan dan kompaksi cluster masih dapat ditingkatkan melalui peningkatan resolusi grid atau penggunaan representasi fitur yang lebih ekspresif.

7.3 Spectral Clustering

7.3.1 Model Selection dan Model Evaluation

7.3.2 Visualisasi Hasil Parameter

7.3.3 Interpretasi

Hasil evaluasi menunjukkan bahwa metode spectral embedding ringan mampu membentuk struktur cluster yang cukup stabil.

Silhouette Score (0.2337) mengindikasikan bahwa sebagian besar data mulai terbentuk dalam cluster yang tepat, meskipun pemisahan antar cluster masih belum sepenuhnya tegas.
Davies–Bouldin Index (1.4389) menunjukkan bahwa beberapa cluster masih memiliki kemiripan sehingga tingkat kompaksi dan keterpisahan belum maksimal.
Calinski–Harabasz Index (1566.1123) memberikan sinyal positif bahwa variasi antar cluster lebih dominan dibandingkan variasi dalam cluster, menandakan adanya struktur global yang jelas.

Secara keseluruhan, spectral clustering dalam pendekatan ringan ini sudah berhasil menangkap pola global data dengan baik, namun peningkatan kualitas pemisahan lokal antar cluster masih memungkinkan bila menggunakan konstruksi graf yang lebih kaya atau spectral clustering penuh.

8 Visualisasi Hasil

8.1 PCA (2D) + Cluster Labels

8.1.1 Interpretasi

Visualisasi PCA dua dimensi memperlihatkan bagaimana data terproyeksi ke dalam dua komponen utama yang merangkum sebagian besar variasi. Proyeksi ini membantu melihat pola kedekatan sampel serta tingkat pemisahan klaster.

Pemisahan klaster terlihat, meskipun terdapat area tumpang tindih yang wajar pada data berdimensi tinggi.
Klaster 2 (hijau) tersebar lebih luas, mengindikasikan keragaman internal yang relatif tinggi.
Klaster 3 dan 4 (biru dan ungu) tampak lebih kompak, menunjukkan kemiripan karakteristik antar sampel.
Klaster 1 (merah) berada di area transisi, sehingga posisinya beririsan dengan beberapa kelompok lain.

Secara keseluruhan, pola ini menunjukkan bahwa algoritma clustering telah berhasil menangkap struktur dasar data, dengan masing-masing klaster tetap memiliki kecenderungan pola yang dapat dibedakan meskipun tidak terpisah sempurna.

8.2 PCA (3D) + Clusters

8.2.1 Interpretasi

Visualisasi PCA tiga dimensi memberikan gambaran lebih kaya mengenai struktur pemisahan klaster, karena informasi variasi data tidak hanya ditangkap oleh dua komponen utama, tetapi juga oleh PC3 yang menambah kedalaman pola distribusi.

Keempat klaster membentuk area sebaran yang berbeda, meskipun masih terdapat tumpang tindih pada batas-batasnya. Hal ini menunjukkan bahwa struktur klaster cukup konsisten namun tidak sepenuhnya terpisah.
Klaster 3 (hijau) dan Klaster 4 (merah) tampak relatif terkonsentrasi, menandakan homogenitas internal yang lebih tinggi.
Klaster 1 (biru) berada lebih banyak di bagian bawah ruang PCA, mengindikasikan karakteristik tertentu yang membedakannya terutama pada dimensi PC3.
Klaster 2 (oranye) memiliki sebaran yang sedikit lebih luas, menandakan keragaman fitur yang lebih besar dibanding klaster lain.
Penambahan dimensi ketiga membantu memperjelas pemisahan yang sebelumnya kurang tampak pada visualisasi 2D, khususnya antara klaster 1 dan klaster lainnya.

Secara keseluruhan, proyeksi 3D ini memperkuat indikasi bahwa algoritma spectral clustering mampu mengidentifikasi pola laten dalam data, dengan masing-masing klaster menunjukkan kecenderungan distribusi yang khas dalam ruang komponen utama.

8.3 Heatmap: Rata-rata Fitur per Cluster

8.3.1 Interpretasi

Heatmap menampilkan pola rata-rata tiap fitur pada masing-masing klaster setelah proses normalisasi, sehingga perbedaan karakteristik antar kelompok dapat dibandingkan secara langsung.

Klaster 3 menunjukkan nilai tinggi pada beberapa variabel terkait sulfur dan gula, yang mengindikasikan kecenderungan komposisi kimia tertentu yang lebih dominan pada kelompok ini.
Klaster 4 memiliki nilai relatif tinggi pada fitur seperti citric_acid, alcohol, dan volatile_acidity, sehingga menggambarkan profil yang lebih kuat pada karakteristik keasaman maupun kandungan alkohol.
Klaster 1 cenderung berada pada nilai mendekati rata-rata, menunjukkan bahwa kelompok ini mewakili sampel dengan karakteristik yang lebih moderat dibandingkan klaster lain.
Klaster 2 memperlihatkan nilai rendah untuk sebagian besar fitur, mencerminkan profil yang lebih homogen dan cenderung rendah pada banyak komponen kimia.

Secara keseluruhan, pola yang tampak pada heatmap mempertegas bahwa setiap klaster memiliki ciri khas komposisi fitur yang cukup berbeda. Informasi ini dapat digunakan untuk memahami perbedaan struktural antar klaster dan mendukung interpretasi hasil clustering secara lebih komprehensif.

8.4 Dendrogram (Validasi Struktur Cluster)

8.4.1 Interpretasi

Dendrogram hasil hierarchical clustering dengan metode Ward.D2 memberikan gambaran mengenai tingkat kemiripan antar sampel dan bagaimana kelompok-kelompok terbentuk secara bertahap.

Terdapat empat kelompok utama yang terbentuk pada ketinggian pemotongan sekitar 60–70, konsisten dengan jumlah klaster yang digunakan pada analisis sebelumnya.
Struktur cabang relatif seimbang, menunjukkan bahwa distribusi klaster tidak terlalu timpang dan masing-masing kelompok memiliki ukuran yang cukup proporsional.
Klaster yang menyatu pada ketinggian yang lebih rendah memiliki tingkat kemiripan lebih tinggi, sedangkan penggabungan pada ketinggian yang lebih tinggi menandakan perbedaan karakteristik yang semakin besar.
Adanya pemisahan cabang yang jelas pada beberapa area mengindikasikan bahwa beberapa kelompok memang memiliki jarak dissimilarity yang cukup signifikan, mendukung validitas pemisahan klaster.

Secara keseluruhan, dendrogram ini memperkuat bahwa struktur clustering yang diperoleh sebelumnya memiliki dasar hierarkis yang cukup kuat. Pemisahan klaster terlihat konsisten dan tidak terbentuk secara acak, sehingga hasil clustering dapat dianggap stabil dan representatif terhadap pola data.

8.5 Reachability Plot (OPTICS)

8.6 Interpretasi

Reachability plot menunjukkan pola jarak keterjangkauan antar sampel sesuai urutan yang dibentuk oleh algoritma OPTICS. Grafik ini digunakan untuk mengidentifikasi struktur density based clustering serta potensi keberadaan cluster dan noise.

Sebagian besar titik memiliki nilai reachability yang sangat rendah, mengindikasikan bahwa dataset didominasi oleh area dengan kepadatan tinggi dan relatif homogen.
Kenaikan tajam di bagian akhir grafik mencerminkan adanya objek yang jauh lebih terisolasi dibandingkan mayoritas sampel, sehingga berpotensi merupakan noise atau titik dengan karakteristik berbeda secara signifikan.
Tidak tampak lembah-lembah yang jelas, yang berarti pola cluster padat tidak terpisah secara kuat dalam ruang PCA 2D. Hal ini menjelaskan mengapa OPTICS tidak menghasilkan struktur klaster yang terfragmentasi secara alami.

Secara keseluruhan, pola grafik menunjukkan struktur kepadatan yang cenderung kontinu dengan sedikit anomali, sehingga pemisahan klaster berbasis density menjadi kurang tegas pada representasi PCA 2D. Visualisasi ini membantu menilai bahwa data tidak memiliki cluster density-based yang sangat jelas, dan OPTICS lebih banyak mendeteksi kepadatan yang menyatu.

9 Evaluasi dan Perbandingan Model

##        Model silhouette db_index ch_index    ari    nmi stability runtime_s
## 1 PCA latent     0.4599   0.8336 241.9044 0.6201 0.6595    0.9606    0.0095
## 2        SOM     0.3863   0.9966 140.8009 0.5311 0.6294    0.4457    0.0160
## 3   Spectral     0.4803   0.5753 149.0258 0.5621 0.7284    0.5673    0.4668

9.1 Interpretasi

Berdasarkan evaluasi metrik clustering, terlihat perbedaan performa yang jelas antar metode:

PCA Latent + KMeans menunjukkan kohesi dan pemisahan cluster moderat dengan Silhouette 0,46. Cluster relatif kompak (DB Index 0,83) dan variansi antar cluster lebih besar (CH Index 241,90). ARI dan NMI cukup tinggi (0,62 / 0,66), artinya cluster mendekati label asli. Keunggulan utama adalah runtime tercepat (0,0063 s), membuat metode ini efisien untuk dataset besar.
Self-Organizing Map (SOM) memiliki kualitas cluster lebih rendah, dengan Silhouette 0,39. DB Index tinggi (0,99) dan CH Index rendah (140,80) menunjukkan cluster lebih longgar dan variansi antarc luster kurang dominan. ARI/NMI (0,53 / 0,63) dan stabilitas (0,45) menandakan cluster cukup konsisten, namun kurang optimal dibanding metode lain. SOM cocok digunakan untuk menganalisis topologi data.
Spectral Clustering menunjukkan performa terbaik secara keseluruhan. Silhouette tertinggi (0,48) menandakan pemisahan cluster paling jelas, DB Index rendah (0,57) menunjukkan cluster kompak, dan CH Index (149,03) menunjukkan variansi antar cluster signifikan. ARI/NMI (0,56 / 0,73) menegaskan cluster mendekati label asli. Runtime sedikit lebih lama (0,39 s) karena proses eigen-decomposition, tetapi kualitas cluster dan kesesuaian label membuat metode ini menjadi pilihan terbaik.

Maka bisa dilihat bahwa Spectral Clustering memberikan keseimbangan optimal antara kualitas cluster, kesesuaian dengan label asli, dan stabilitas. PCA Latent lebih efisien untuk runtime, sedangkan SOM bermanfaat untuk analisis topologi, meskipun kualitas cluster lebih rendah.

10 Kesimpulan dan Rekomendasi

10.1 Kesimpulan

Berdasarkan evaluasi menggunakan metrik Silhouette, Davies–Bouldin Index, Calinski Harabasz Index, serta ARI/NMI, Spectral Clustering terbukti memberikan performa terbaik untuk problem ini. Metode ini mampu menghasilkan cluster yang paling jelas dan kompak serta menunjukkan tingkat kesesuaian tertinggi dengan label asli, dengan stabilitas yang baik dibandingkan dua metode lainnya.

10.2 Rekomendasi

Dari hasil evaluasi tersebut, Spectral Clustering direkomendasikan sebagai metode utama karena mampu menangkap struktur data yang kompleks dan memberikan kualitas cluster terbaik. Namun, jika kebutuhan analisis lebih menekankan kecepatan komputasi, maka PCA Latent + KMeans dapat menjadi alternatif yang lebih efisien. Sementara itu, SOM dapat digunakan apabila tujuan utama adalah melakukan eksplorasi pola topologi data, meskipun kualitas pemisahan clusternya tidak sekuat Spectral Clustering.

11 Referensi

[1] https://bookdown.org/content/a142b172-69b2-436d-bdb0-9da6d046a0f9/04-Clustering.html

[2] https://youtu.be/zxyP8IdBDRo?si=AzCQwLzuAM4ceJYU

[3] https://youtu.be/0m5GNDo-CFM?si=IDHHxd81fhpGE1yi

[4] https://utstat.toronto.edu/droy/icml16/publish/xieb16.pdf?utm_source