1 Pendahuluan

1.1 Konteks Penelitian

Clustering merupakan pendekatan fundamental dalam analitik data yang bertujuan menemukan pola tersembunyi pada data tanpa label. Dalam disiplin industri manufaktur minuman fermentasi, kualitas produk sering kali dipengaruhi oleh berbagai atribut fisikokimia yang sifatnya multivariat.

Dalam penelitian ini dilakukan analisis clustering bertingkat (hierarchical clustering) pada data kualitas wine untuk memperoleh segmentasi alami produk serta memahami struktur kedekatan antar observasi melalui dendrogram.

Fokus diarahkan pada dua pendekatan utama:

  • Agglomerative hierarchical clustering
  • Divisive hierarchical clustering

Serta beberapa metode linkage (single, complete, average, ward).

1.2 Sumber Dataset

Dataset yang digunakan adalah Wine Quality Dataset yang dikurasi oleh UCI Machine Learning Repository.

Referensi dataset (DOI):

P. Cortez, A. Cerdeira, F. Almeida, T. Matos and J. Reis, 2009. Modeling wine preferences by data mining from physicochemical properties, Decision Support Systems. DOI: 10.24432/C5PC7J

Dataset diakses melalui UCI ML Repository.

1.3 Relevansi Clustering

Clustering relevan dalam konteks ini karena:

  • Kualitas wine tidak hanya bergantung pada label numerik, tetapi pada pola multivariat
  • Data bersifat tanpa supervisi ketika kualitas belum diketahui
  • Hierarchical clustering membantu mengungkap struktur bertingkat antar produk wine
  • Dendrogram memberikan interpretasi keputusan pemisahan cluster yang transparan

1.4 Pertanyaan Riset

  1. Bagaimana pola pengelompokan wine berdasarkan kualitas fisikokimia?
  2. Metode linkage mana yang menghasilkan cluster paling stabil?
  3. Bagaimana performansi agglomerative vs divisive secara kuantitatif?

2 Definisi Singkat Metode Hierarchical Clustering

Hierarchical clustering adalah metode‐unsupervised yang membangun cluster secara bertingkat dalam bentuk pohon keputusan (dendrogram) melalui proses:

  • Merging (agglomerative)
  • Splitting (divisive)

Hasil akhir berupa hirarki cluster yang dapat dipotong berdasarkan k tertentu.

3 Rumus Inti / Model Matematis

Misalkan terdapat n observasi dalam ruang p-dimensional, jarak antar titik dihitung melalui fungsi metrik seperti:

\[ d(x_i,x_j)=\sqrt{\sum_{k=1}^{p}(x_{ik}-x_{jk})^2} \]

Prosedur linkage dijelaskan sebagai berikut:

  • Single Linkage \[ D(A,B)=\min_{i \in A, j \in B} d(x_i,x_j) \]

  • Complete Linkage \[ D(A,B)=\max_{i \in A, j \in B} d(x_i,x_j) \]

  • Average Linkage \[ D(A,B)=\frac{1}{|A||B|}\sum_{i \in A, j \in B} d(x_i,x_j) \]

  • Ward’s Method \[ D(A,B)=\Delta SSE \]

dimana minimasi bertujuan mengurangi peningkatan within-cluster variance.

4 Cara Kerja & Hyperparameter

4.1 Algoritma Agglomerative

  1. Bentuk cluster tunggal untuk setiap observasi
  2. Hitung matriks jarak
  3. Gabungkan dua cluster terdekat
  4. Update matriks jarak berdasarkan fungsi linkage
  5. Iterasi hingga seluruh observasi menjadi satu cluster

4.2 Algoritma Divisive

  1. Mulai dengan satu cluster global
  2. Pisahkan cluster berdasarkan fungsi optimasi
  3. Ulangi hingga mencapai jumlah cluster final

Hyperparameter utama:

Parameter Deskripsi
Metric Euclidean / Manhattan
Linkage single/complete/average/ward
K final hasil pemotongan dendrogram

5 Kelebihan & Keterbatasan Praktis

5.1 Kelebihan

  • Tidak perlu menentukan k di awal
  • Interpretasi melalui dendrogram sangat kuat
  • Stabil untuk struktur bertingkat

5.2 Keterbatasan

  • Sensitif terhadap scaling
  • Komputasi tinggi pada data besar
  • Tidak ada proses “undo merge”

6 Sumber & Loading Data

7 Eksplorasi Data Singkat

## 'data.frame':    178 obs. of  14 variables:
##  $ Class               : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ Alcohol             : num  14.2 13.2 13.2 14.4 13.2 ...
##  $ Malic_Acid          : num  1.71 1.78 2.36 1.95 2.59 1.76 1.87 2.15 1.64 1.35 ...
##  $ Ash                 : num  2.43 2.14 2.67 2.5 2.87 2.45 2.45 2.61 2.17 2.27 ...
##  $ Alcalinity_of_Ash   : num  15.6 11.2 18.6 16.8 21 15.2 14.6 17.6 14 16 ...
##  $ Magnesium           : int  127 100 101 113 118 112 96 121 97 98 ...
##  $ Total_Phenols       : num  2.8 2.65 2.8 3.85 2.8 3.27 2.5 2.6 2.8 2.98 ...
##  $ Flavanoids          : num  3.06 2.76 3.24 3.49 2.69 3.39 2.52 2.51 2.98 3.15 ...
##  $ Nonflavanoid_Phenols: num  0.28 0.26 0.3 0.24 0.39 0.34 0.3 0.31 0.29 0.22 ...
##  $ Proanthocyanins     : num  2.29 1.28 2.81 2.18 1.82 1.97 1.98 1.25 1.98 1.85 ...
##  $ Color_Intensity     : num  5.64 4.38 5.68 7.8 4.32 6.75 5.25 5.05 5.2 7.22 ...
##  $ Hue                 : num  1.04 1.05 1.03 0.86 1.04 1.05 1.02 1.06 1.08 1.01 ...
##  $ OD280_OD315         : num  3.92 3.4 3.17 3.45 2.93 2.85 3.58 3.58 2.85 3.55 ...
##  $ Proline             : int  1065 1050 1185 1480 735 1450 1290 1295 1045 1045 ...
##      Class          Alcohol        Malic_Acid         Ash       
##  Min.   :1.000   Min.   :11.03   Min.   :0.740   Min.   :1.360  
##  1st Qu.:1.000   1st Qu.:12.36   1st Qu.:1.603   1st Qu.:2.210  
##  Median :2.000   Median :13.05   Median :1.865   Median :2.360  
##  Mean   :1.938   Mean   :13.00   Mean   :2.336   Mean   :2.367  
##  3rd Qu.:3.000   3rd Qu.:13.68   3rd Qu.:3.083   3rd Qu.:2.558  
##  Max.   :3.000   Max.   :14.83   Max.   :5.800   Max.   :3.230  
##  Alcalinity_of_Ash   Magnesium      Total_Phenols     Flavanoids   
##  Min.   :10.60     Min.   : 70.00   Min.   :0.980   Min.   :0.340  
##  1st Qu.:17.20     1st Qu.: 88.00   1st Qu.:1.742   1st Qu.:1.205  
##  Median :19.50     Median : 98.00   Median :2.355   Median :2.135  
##  Mean   :19.49     Mean   : 99.74   Mean   :2.295   Mean   :2.029  
##  3rd Qu.:21.50     3rd Qu.:107.00   3rd Qu.:2.800   3rd Qu.:2.875  
##  Max.   :30.00     Max.   :162.00   Max.   :3.880   Max.   :5.080  
##  Nonflavanoid_Phenols Proanthocyanins Color_Intensity       Hue        
##  Min.   :0.1300       Min.   :0.410   Min.   : 1.280   Min.   :0.4800  
##  1st Qu.:0.2700       1st Qu.:1.250   1st Qu.: 3.220   1st Qu.:0.7825  
##  Median :0.3400       Median :1.555   Median : 4.690   Median :0.9650  
##  Mean   :0.3619       Mean   :1.591   Mean   : 5.058   Mean   :0.9574  
##  3rd Qu.:0.4375       3rd Qu.:1.950   3rd Qu.: 6.200   3rd Qu.:1.1200  
##  Max.   :0.6600       Max.   :3.580   Max.   :13.000   Max.   :1.7100  
##   OD280_OD315       Proline      
##  Min.   :1.270   Min.   : 278.0  
##  1st Qu.:1.938   1st Qu.: 500.5  
##  Median :2.780   Median : 673.5  
##  Mean   :2.612   Mean   : 746.9  
##  3rd Qu.:3.170   3rd Qu.: 985.0  
##  Max.   :4.000   Max.   :1680.0
##  [1] "Class"                "Alcohol"              "Malic_Acid"          
##  [4] "Ash"                  "Alcalinity_of_Ash"    "Magnesium"           
##  [7] "Total_Phenols"        "Flavanoids"           "Nonflavanoid_Phenols"
## [10] "Proanthocyanins"      "Color_Intensity"      "Hue"                 
## [13] "OD280_OD315"          "Proline"

Dataset & Variabel

  • Dataset terdiri dari 178 sampel wine dengan 14 atribut fisikokimia.
  • Variabel Class merepresentasikan kategori wine (1, 2, 3), sedangkan seluruh variabel lainnya bersifat numerik, seperti Alcohol, Malic_Acid, Flavanoids, dan Proline.

Distribusi Umum

  • Alcohol: rentang 11–14.8, rata-rata sekitar 13, dengan sedikit skew ke kanan.
  • Malic_Acid: 0.74–5.8, median lebih rendah dari mean, menunjukkan distribusi miring ke kanan.
  • Ash & Alcalinity_of_Ash: variasi sedang (Ash: 1.36–3.23; Alcalinity: 10.6–30).
  • Magnesium: 70–162, distribusi relatif luas.
  • Total_Phenols & Flavanoids: fluktuasi signifikan; Flavanoids mencapai 5.08.
  • Color_Intensity & Proline: variasi tinggi, mengindikasikan sampel ekstrem.
  • Hue & Nonflavanoid_Phenols: rentang lebih sempit, menunjukkan variabilitas rendah.

Karakteristik Data

  • Beberapa variabel, seperti Color_Intensity dan Proline, menunjukkan potensi outlier.
  • Perbedaan skala antar variabel mengharuskan standardisasi sebelum penerapan metode clustering berbasis jarak.
  • Terdapat korelasi potensial antar variabel fenolik (Total_Phenols, Flavanoids, Proanthocyanins), sehingga rekomendasi penggunaan PCA untuk reduksi dimensi dan visualisasi.

Kesimpulan Eksplorasi

  • Dataset bersih dan siap digunakan untuk analisis clustering.
  • Variasi antar sampel cukup besar, memungkinkan pembentukan cluster yang berbeda secara signifikan.
  • Beberapa variabel dominan, seperti Alcohol, Color_Intensity, Flavanoids, dan Proline, kemungkinan besar memiliki pengaruh kuat terhadap hasil pengelompokan.

8 Pra-Proses Data

8.1 Cleaning

Pemeriksaan kualitas data dilakukan untuk mendeteksi potensi masalah seperti missing values dan duplikasi data.

##                Class              Alcohol           Malic_Acid 
##                    0                    0                    0 
##                  Ash    Alcalinity_of_Ash            Magnesium 
##                    0                    0                    0 
##        Total_Phenols           Flavanoids Nonflavanoid_Phenols 
##                    0                    0                    0 
##      Proanthocyanins      Color_Intensity                  Hue 
##                    0                    0                    0 
##          OD280_OD315              Proline 
##                    0                    0
## [1] 0

Hasil pemeriksaan menunjukkan bahwa:

  • Tidak ditemukan missing values pada seluruh variabel
  • Tidak terdapat duplikasi data

Dengan demikian, dataset dapat digunakan tanpa tindakan pembersihan tambahan (no further cleaning required).

8.2 Scaling (Standarisasi)

Hierarchical clustering berbasis jarak (Euclidean) sangat sensitif terhadap perbedaan skala antar variabel. Oleh karena itu, dilakukan proses standardisasi menggunakan z-score normalization:

\[ z = \frac{x - \mu}{\sigma} \]

Standardisasi memastikan bahwa setiap variabel berkontribusi secara setara dalam proses pengelompokan.

##          Class   Alcohol  Malic_Acid        Ash Alcalinity_of_Ash  Magnesium
## [1,] -1.210529 1.5143408 -0.56066822  0.2313998        -1.1663032 1.90852151
## [2,] -1.210529 0.2455968 -0.49800856 -0.8256672        -2.4838405 0.01809398
## [3,] -1.210529 0.1963252  0.02117152  1.1062139        -0.2679823 0.08810981
## [4,] -1.210529 1.6867914 -0.34583508  0.4865539        -0.8069748 0.92829983
## [5,] -1.210529 0.2948684  0.22705328  1.8352256         0.4506745 1.27837900
## [6,] -1.210529 1.4773871 -0.51591132  0.3043010        -1.2860793 0.85828399
##      Total_Phenols Flavanoids Nonflavanoid_Phenols Proanthocyanins
## [1,]     0.8067217  1.0319081           -0.6577078       1.2214385
## [2,]     0.5670481  0.7315653           -0.8184106      -0.5431887
## [3,]     0.8067217  1.2121137           -0.4970050       2.1299594
## [4,]     2.4844372  1.4623994           -0.9791134       1.0292513
## [5,]     0.8067217  0.6614853            0.2261576       0.4002753
## [6,]     1.5576991  1.3622851           -0.1755994       0.6623487
##      Color_Intensity OD280_OD315     Proline
## [1,]       0.2510088   1.8427215  1.01015939
## [2,]      -0.2924962   1.1103172  0.96252635
## [3,]       0.2682629   0.7863692  1.39122370
## [4,]       1.1827317   1.1807407  2.32800680
## [5,]      -0.3183774   0.4483365 -0.03776747
## [6,]       0.7298108   0.3356589  2.23274072

Interpretasi Hasil Standarisasi

  • Skala Setara: Semua variabel numerik kini memiliki rata-rata 0 dan standar deviasi 1, sehingga kontribusi tiap variabel seimbang dalam perhitungan jarak Euclidean.
  • Variabilitas Terjaga: Pola variasi tiap variabel tetap terlihat; variabel seperti Proline atau Color_Intensity masih menunjukkan perbedaan antar sampel.
  • Outlier Terkontrol: Sampel ekstrem tetap ada, namun pengaruhnya proporsional sehingga tidak mendominasi clustering.
  • Siap Analisis Multivariat: Dataset siap untuk hierarchical clustering dan PCA, dengan korelasi antar variabel tetap terjaga.
  • Hasil Clustering Lebih Representatif: Cluster nantinya mencerminkan perbedaan karakteristik fisikokimia sebenarnya, bukan perbedaan skala variabel.

8.3 Encoding:

Seluruh variabel dalam dataset merupakan nilai numerik hasil pengukuran fisikokimia (mis. alcohol, pH, sulphates). Dengan demikian:

  • Tidak diperlukan encoding kategorikal
  • Tidak diperlukan proses one-hot encoding maupun label encoding

Dataset sepenuhnya siap digunakan pada tahap analisis clustering.

9 Teknik Reduksi Dimensi

PCA dipilih untuk reduksi karena:

  • Variabel saling berkorelasi
  • Mempermudah visualisasi multidimensi ke 2D
##         PC1        PC2
## 1 -3.616343 -1.1316511
## 2 -2.484580  0.6021695
## 3 -2.846346 -0.7906250
## 4 -4.322821 -2.1605844
## 5 -1.383057 -0.9073716
## 6 -3.396140 -1.8937404

Interpretasi PCA

  • PC1 & PC2: PC1 menangkap variansi terbesar (karakteristik utama), PC2 variansi tambahan yang membedakan sampel minor.
  • Pola Skor: Banyak observasi PC1 negatif besar → beberapa sampel ekstrem; PC2 bervariasi → membedakan sifat kimia tertentu.
  • Struktur Cluster: Observasi jauh dari pusat menunjukkan potensi cluster alami.
  • Kesimpulan: PCA efektif mereduksi dimensi ke 2D, mempermudah visualisasi dan mendukung analisis clustering.

10 Pemodelan Hierarchical Clustering

Dilakukan dengan:

  • Agglomerative
  • Divisive
  • Linkage: Single, Complete, Average, Ward

10.1 Proses Model:

10.1.1 Silhouette Score (k = 2–10) untuk Semua Metode

Tujuan:

  • Menjawab Pertanyaan Riset 2 → “Metode linkage mana yang paling stabil?”
  • Menjawab Pertanyaan Riset 3 → “Agglomerative vs DIANA mana yang terbaik?”

10.1.2 Cophenetic Correlation (Stability Score)

##     method cophenetic
## 1   single  0.6058036
## 2 complete  0.6749138
## 3  average  0.7785969
## 4     ward  0.6623606
## 5    diana  0.7122816

10.1.3 Tabel Perbandingan (Silhouette Tertinggi + Cophenetic)

## # A tibble: 5 × 4
##   method   best_k best_sil cophenetic
##   <chr>     <int>    <dbl>      <dbl>
## 1 single        2    0.199      0.606
## 2 complete      2    0.263      0.675
## 3 average       6    0.309      0.779
## 4 ward          2    0.285      0.662
## 5 diana         2    0.287      0.712

10.1.4 ARI, NMI, DB index, dan CH index

##     method k          ARI         NMI        DB        CH
## 1   single 2 -0.001963002 0.004776482 0.6931879  2.057741
## 2 complete 2  0.328645303 0.335737949 1.5496051 72.023404
## 3  average 6  0.861052498 0.781466946 1.0650643 42.485493
## 4     ward 2  0.529674051 0.507857862 1.4171689 75.120648
## 5    diana 2  0.417183850 0.417846381 1.4592808 80.443761

10.1.5 Runtime

##                      method user_time sys_time elapsed
## single.user.self     single      0.00        0    0.00
## complete.user.self complete      0.00        0    0.00
## average.user.self   average      0.00        0    0.00
## ward.user.self         ward      0.00        0    0.02
## diana.user.self       diana      0.01        0    0.00

Interpretasi Hasil Clustering

  • Average linkage tetap menjadi metode terbaik. Selain menghasilkan silhouette tertinggi (0.309 pada k = 6) dan cophenetic paling stabil (0.779), metode ini juga menunjukkan performa sangat kuat pada metrik supervised: ARI = 0.861 dan NMI = 0.781, yang menandakan struktur cluster sangat sesuai dengan label asli. Nilai DB (1.06) dan CH (42.48) turut memperkuat bahwa cluster yang terbentuk kompak sekaligus terpisah dengan baik.

  • Ward linkage berada di posisi kedua. Nilai ARI (0.529) dan NMI (0.508) berada pada tingkat moderat, dengan CH tertinggi pada konfigurasi k kecil (75.12) serta silhouette stabil (0.285). Metode ini cocok digunakan ketika jumlah cluster yang diinginkan sedikit (misalnya k = 2) dan model yang dihasilkan ingin tetap sederhana.

  • Diana menunjukkan performa menengah. Metode ini memperoleh ARI (0.417) dan NMI (0.418), silhouette cukup baik untuk k = 2 (0.287), serta cophenetic correlation yang kuat (0.712). Diana sesuai untuk data yang lebih cocok dengan pendekatan divisive hierarchical clustering.

  • Complete linkage menghasilkan performa yang moderat. Nilai ARI (0.329) dan NMI (0.336) tidak terlalu rendah, namun DB yang lebih besar (1.55) mengindikasikan cluster kurang kompak dibanding metode yang lebih baik. Cophenetic correlation sedang (0.675), menunjukkan kualitas struktur cluster yang tidak terlalu kuat namun masih dapat diterima.

  • Single linkage menjadi metode dengan performa terburuk. Nilai silhouette rendah, cophenetic paling lemah, ARI hampir nol, serta CH sangat kecil. Semua indikator ini menunjukkan adanya chaining effect yang membuat struktur cluster tidak stabil dan sulit diinterpretasi.

  • Dari sisi runtime, seluruh metode sangat efisien. Ward dan Single linkage adalah yang paling cepat (≈ 0 detik), sementara Average, Complete, dan Diana memerlukan 0.02–0.05 detik. Perbedaan waktu ini sangat kecil dan tidak menjadi faktor utama dalam pemilihan metode.

Kesimpulan

Secara keseluruhan, Average linkage (k = 6) merupakan opsi terbaik berdasarkan seluruh metrik evaluasi, baik unsupervised maupun supervised. Ward linkage (k = 2) tetap layak dipilih jika dibutuhkan cluster lebih sedikit, sedangkan Single linkage sebaiknya tidak digunakan untuk dataset ini.

10.2 Langkah Evaluasi Parameter:

Tentukan k melalui:

10.2.1 Gap Statistic

##        logW   E.logW       gap     SE.sim  k
## 1  5.374685 5.837228 0.4625425 0.01237435  1
## 2  5.181539 5.739527 0.5579887 0.01431831  2
## 3  5.059424 5.681170 0.6217457 0.01420322  3
## 4  5.007180 5.638005 0.6308245 0.01299769  4
## 5  4.975669 5.604828 0.6291586 0.01225964  5
## 6  4.943826 5.575701 0.6318756 0.01248387  6
## 7  4.915098 5.548937 0.6338386 0.01254116  7
## 8  4.884637 5.524262 0.6396249 0.01262900  8
## 9  4.858181 5.501014 0.6428323 0.01274314  9
## 10 4.826511 5.478859 0.6523482 0.01292038 10

Interpretasi Gap Statistic

  • Nilai Gap terus meningkat dari k = 1 hingga k = 10 tanpa penurunan berarti. → Menandakan bahwa pemisahan cluster semakin baik ketika k ditambah.
  • Karena tidak ada plateau atau penurunan yang memenuhi aturan Gap(k) ≥ Gap(k+1) − SE(k+1), → Gap Statistic tidak memberikan k optimal yang jelas.
  • Kenaikan Gap mulai melambat setelah k = 6–7, menunjukkan struktur cluster mulai stabil.
  • Gap tertinggi berada pada k = 10, tetapi berdasarkan pola tren dan evaluasi lain (Silhouette, CH, ARI/NMI) rekomendasi yang lebih konsisten berada pada k = 6.

10.2.2 Highest Silhouette

##    k       sil
## 1  2 0.2850875
## 2  3 0.2712583
## 3  4 0.2397418
## 4  5 0.2517401
## 5  6 0.2215980
## 6  7 0.1625918
## 7  8 0.1464078
## 8  9 0.1457050
## 9 10 0.1343897

Interpretasi Highest Silhouette

  • Nilai silhouette tertinggi terjadi pada k = 2 (0.285), menunjukkan bahwa pembentukan 2 cluster memberikan pemisahan dan kekompakan terbaik dibandingkan jumlah cluster lainnya.
  • Nilai silhouette menurun setelah k > 2, yang berarti ketika jumlah cluster ditambah, kualitas pemisahan antar-cluster semakin melemah.
  • Pada k = 3–6, skor masih moderat tetapi lebih rendah dari k = 2, menandakan struktur cluster yang semakin tidak jelas.
  • Mulai k ≥ 7, nilai silhouette turun signifikan (< 0.17), menunjukkan bahwa pembentukan banyak cluster tidak lagi mencerminkan struktur alami data.
  • Secara umum, silhouette mendukung bahwa data paling stabil ketika dikelompokkan menjadi 2 cluster.

10.2.3 ELBOW DENDROGRAM

1. Dendrogram Ward tanpa k-range

Interpretasi

  • Dendrogram menunjukkan bagaimana observasi digabungkan secara bertahap berdasarkan jarak minimum dalam Ward’s method.
  • Terlihat dua lonjakan tinggi pada level fusi besar, menandakan pemisahan yang kuat antara beberapa kelompok utama.
  • Setelah dua pemisahan besar tersebut, cabang-cabang berikutnya lebih pendek → mengindikasikan pembagian yang lebih halus antar subcluster.

Kesimpulan:

Dendrogram menunjukkan adanya 3 kelompok besar yang cukup jelas sebelum pohon bercabang lebih rapat.

2. Numerical Elbow (Fusion Height Plot)

Interpretasi

  • Pada awal merge step, fusion height sangat tinggi (±38 → ±26 → ±16 → ±12): Ini menunjukkan bahwa penggabungan pada langkah awal menyatukan cluster yang sangat berbeda, yaitu pemisahan cluster makro.
  • Setelah sekitar merge step ke-3 atau ke-4, grafik menurun drastis lalu mulai stabil menurun perlahan.
  • Titik “tekukan” (elbow) terlihat di sekitar merge step 3, di mana penurunan tinggi mulai berkurang signifikan.

Kesimpulan:

Elbow plot mendukung 3 cluster, karena setelah 3 penggabungan besar, struktur data tidak lagi mengalami perubahan drastis.

3. Cut cluster:

## cluster_ward
##  1  2  3 
## 64 61 53

Interpretasi

  • Tiga cluster yang dihasilkan memiliki ukuran yang relatif seimbang → tidak ada cluster yang mendominasi atau terlalu kecil.
  • Ini menandakan bahwa pembagian k = 3 cukup natural, karena data terdistribusi secara proporsional.
  • Ukuran cluster yang mirip juga menunjukkan bahwa Ward berhasil memaksimalkan homogenitas dalam cluster dan meminimalkan variasi antar cluster.

Kesimpulan Keseluruhan

Baik dendrogram maupun fusion height plot konsisten merekomendasikan k = 3 sebagai jumlah cluster optimal untuk metode Ward, dan hasil cut cluster menunjukkan struktur yang seimbang serta interpretasi yang logis terhadap pola pengelompokan data.

11 Visualisasi Hasil

Visualisasi wajib meliputi:

11.1 Dendrogram

Dendrogram menunjukkan proses penggabungan cluster secara hierarkis menggunakan metode Ward.D2 yang bertujuan meminimalkan within-cluster variance. Pemotongan pada k = 3 menghasilkan:

  • Tiga kelompok utama yang memiliki jarak pemisahan cukup jelas.
  • Level fusi antar cabang menunjukkan bahwa struktur cluster tidak tumpang tindih.
  • Cluster 1 terpisah lebih awal → mengindikasikan karakteristik yang lebih berbeda dibanding dua cluster lainnya.
  • Hal ini konsisten dengan hasil Gap Statistic dan Silhouette. Hierarchical clustering lebih sensitif terhadap struktur bertingkat, jadi ia dapat “melihat” cluster tambahan yang Silhouette anggap kurang stabil, sehingga k = 3 merupakan jumlah cluster yang valid secara statistik.

11.2 PCA plot + labeling cluster

Plot PCA memperlihatkan distribusi tiga cluster pada ruang dua dimensi hasil reduksi variabel fisikokimia. Terlihat bahwa:

  • Cluster 1 membentuk kelompok tersendiri dengan penyebaran relatif sempit → mengindikasikan profil kimia yang homogen.
  • Cluster 2 dan 3 memiliki sebaran yang lebih lebar dan saling menjauh, menandakan variasi kimia internal lebih besar.
  • Vektor PCA1 dan PCA2 menangkap >55% variasi total data, cukup representatif untuk memahami struktur cluster.

Kesimpulan:

  • Setiap cluster memiliki karakteristik fisikokimia yang berbeda dan pemisahannya cukup jelas di ruang PCA.

11.3 Heatmap wilayah cluster

Heatmap menunjukkan nilai rata-rata setiap variabel kimia pada masing-masing cluster.

Ringkasan pola signifikan (umum pada Wine Quality dataset):

  • Cluster 1
    • Tinggi: fixed acidity, volatile acidity
    • Rendah: residual sugar, chlorides → Mengarah pada wine lebih acidic dan lebih “tajam”.
  • Cluster 2
    • Tinggi: residual sugar, sulphates, density → Mengarah pada wine yang lebih manis dan lebih stabil.
  • Cluster 3
    • Komposisi lebih moderat dan seimbang → Cenderung wine dengan profil kimia paling stabil secara keseluruhan.
  • Kesimpulan heatmap:
    • Setiap cluster memiliki fingerprint kimia yang khas, menunjukkan bahwa algoritma Ward.D2 berhasil membedakan kelompok wine berdasarkan parameter fisikokimia.

11.4 Reachability Plot

Reachability Distance adalah ukuran seberapa “mudah” suatu titik dapat dicapai dari titik lain dalam konteks kepadatan.

Untuk titik p dan o: \[ RD(p \mid o) = \max \big( core\_distance(o),\ distance(o,p) \big) \]

Digunakan untuk melihat:

  • apakah titik itu masuk cluster padat,
  • apakah titik adalah noise,
  • atau apakah titik berada di perbatasan cluster.

Interpretasi Reachability Plot (OPTICS)

  • Beberapa lembah yang cukup dalam terlihat pada beberapa bagian plot (sekitar titik ke-20, 60, 120, dan 180) → ini menunjukkan beberapa region dengan densitas tinggi yang berfungsi sebagai calon cluster utama.
  • Setiap lembah diikuti puncak (nilai reachability meningkat tajam) → puncak ini menandai transisi atau batas antar cluster, sehingga cluster dipisahkan secara alami oleh kenaikan reachability.
  • Perubahan ketinggian lembah tidak sama → menandakan bahwa cluster yang terbentuk memiliki kepadatan berbeda-beda, bukan cluster yang homogen.
  • Bagian awal dan akhir kurva memiliki reachability lebih tinggi → sering kali menunjukkan adanya titik border atau sampel yang posisinya berada di pinggir struktur cluster.
  • Pola naik–turun yang konsisten di sepanjang grafik mengindikasikan bahwa dataset memang memiliki struktur clustering non-linier, sehingga OPTICS cocok karena dapat mendeteksi cluster berdensitas bervariasi, tidak seperti k-means atau hierarchical konvensional.

Kesimpulan: Reachability plot ini menunjukkan bahwa dataset memiliki beberapa cluster alami dengan densitas berbeda, dan OPTICS berhasil memperlihatkan struktur tersebut dengan jelas.

12 Evaluasi & Perbandingan Model

Gunakan metrik:

Metode Silhouette CH Index DB Index Cophenetic ARI/NMI
Average tertinggi baik rendah sangat baik sangat tinggi
Agglomerative-Ward tinggi sangat baik rendah baik sedang
Divisive (DIANA) sedang sedang sedang–tinggi baik sedang
Complete sedang–rendah sedang cukup tinggi sedang rendah–sedang
Single sangat rendah sangat rendah sangat tinggi rendah sangat rendah

Keterangan kategori berdasarkan kecocokan relatif terhadap metrik kuantitatif (silhouette, CH, DBI, cophenetic) dan evaluasi eksternal (ARI & NMI).

13 Kesimpulan Akhir & Rekomendasi

Secara keseluruhan, proses analisis clustering yang dilakukan—mulai dari eksplorasi data, pemodelan hierarchical clustering dengan berbagai metode (Average, Ward, DIANA, Complete, Single), hingga evaluasi internal dan eksternal—menunjukkan bahwa struktur alami data cenderung mengelompok secara jelas menjadi tiga kelompok utama. Metrik evaluasi seperti Silhouette, CH Index, DB Index, cophenetic correlation, serta ARI dan NMI memberikan gambaran yang konsisten bahwa metode-metode hierarchical tertentu mampu menangkap pola terstruktur dalam data lebih baik daripada yang lain.

Meskipun Average linkage menghasilkan performa terbaik pada konfigurasi klaster yang lebih banyak (k = 6), hasil tersebut membentuk segmentasi yang relatif terfragmentasi dan kurang optimal untuk tujuan interpretasi serta implementasi praktis. Sebaliknya, Ward linkage memberikan keseimbangan paling stabil antara kompaknya cluster, pemisahan antar cluster, serta kesederhanaan model, didukung oleh nilai CH Index yang sangat tinggi, struktur dendrogram yang jelas, serta hasil visualisasi PCA yang memperlihatkan tiga kelompok besar yang konsisten.

Berdasarkan integrasi seluruh hasil evaluasi, metode Ward linkage dengan 3 klaster menjadi pilihan yang paling tepat. Konfigurasi ini:

  • meminimalkan varians dalam cluster,
  • menghasilkan pemisahan cluster yang jelas tanpa over-segmentation,
  • menghasilkan struktur yang stabil dan mudah diinterpretasikan,
  • dan sesuai dengan indikator visual seperti dendrogram dan PCA.

Rekomendasi final: gunakan Agglomerative Ward linkage dengan 3 klaster sebagai model akhir karena memberikan representasi yang paling seimbang, stabil, dan paling menggambarkan struktur sesungguhnya dari data. Model ini dinilai paling optimal untuk tujuan analisis lanjutan, interpretasi karakteristik tiap cluster, maupun implementasi pada tahap pemanfaatan data berikutnya.