Assignment Week 11: Analisis Model Prediksi
December 11, 2025
1 Pendahuluan
1.1 Konteks Penelitian
Clustering merupakan pendekatan fundamental dalam analitik data yang bertujuan menemukan pola tersembunyi pada data tanpa label. Dalam disiplin industri manufaktur minuman fermentasi, kualitas produk sering kali dipengaruhi oleh berbagai atribut fisikokimia yang sifatnya multivariat.
Dalam penelitian ini dilakukan analisis clustering bertingkat (hierarchical clustering) pada data kualitas wine untuk memperoleh segmentasi alami produk serta memahami struktur kedekatan antar observasi melalui dendrogram.
Fokus diarahkan pada dua pendekatan utama:
- Agglomerative hierarchical clustering
- Divisive hierarchical clustering
Serta beberapa metode linkage (single, complete, average, ward).
1.2 Sumber Dataset
Dataset yang digunakan adalah Wine Quality Dataset yang dikurasi oleh UCI Machine Learning Repository.
Referensi dataset (DOI):
P. Cortez, A. Cerdeira, F. Almeida, T. Matos and J. Reis, 2009. Modeling wine preferences by data mining from physicochemical properties, Decision Support Systems. DOI: 10.24432/C5PC7J
Dataset diakses melalui UCI ML Repository.
1.3 Relevansi Clustering
Clustering relevan dalam konteks ini karena:
- Kualitas wine tidak hanya bergantung pada label numerik, tetapi pada pola multivariat
- Data bersifat tanpa supervisi ketika kualitas belum diketahui
- Hierarchical clustering membantu mengungkap struktur bertingkat antar produk wine
- Dendrogram memberikan interpretasi keputusan pemisahan cluster yang transparan
2 Definisi Singkat Metode Hierarchical Clustering
Hierarchical clustering adalah metode‐unsupervised yang membangun cluster secara bertingkat dalam bentuk pohon keputusan (dendrogram) melalui proses:
- Merging (agglomerative)
- Splitting (divisive)
Hasil akhir berupa hirarki cluster yang dapat dipotong berdasarkan k tertentu.
3 Rumus Inti / Model Matematis
Misalkan terdapat n observasi dalam ruang p-dimensional, jarak antar titik dihitung melalui fungsi metrik seperti:
\[ d(x_i,x_j)=\sqrt{\sum_{k=1}^{p}(x_{ik}-x_{jk})^2} \]
Prosedur linkage dijelaskan sebagai berikut:
Single Linkage \[ D(A,B)=\min_{i \in A, j \in B} d(x_i,x_j) \]
Complete Linkage \[ D(A,B)=\max_{i \in A, j \in B} d(x_i,x_j) \]
Average Linkage \[ D(A,B)=\frac{1}{|A||B|}\sum_{i \in A, j \in B} d(x_i,x_j) \]
Ward’s Method \[ D(A,B)=\Delta SSE \]
dimana minimasi bertujuan mengurangi peningkatan within-cluster variance.
4 Cara Kerja & Hyperparameter
5 Kelebihan & Keterbatasan Praktis
7 Eksplorasi Data Singkat
## 'data.frame': 178 obs. of 14 variables:
## $ Class : int 1 1 1 1 1 1 1 1 1 1 ...
## $ Alcohol : num 14.2 13.2 13.2 14.4 13.2 ...
## $ Malic_Acid : num 1.71 1.78 2.36 1.95 2.59 1.76 1.87 2.15 1.64 1.35 ...
## $ Ash : num 2.43 2.14 2.67 2.5 2.87 2.45 2.45 2.61 2.17 2.27 ...
## $ Alcalinity_of_Ash : num 15.6 11.2 18.6 16.8 21 15.2 14.6 17.6 14 16 ...
## $ Magnesium : int 127 100 101 113 118 112 96 121 97 98 ...
## $ Total_Phenols : num 2.8 2.65 2.8 3.85 2.8 3.27 2.5 2.6 2.8 2.98 ...
## $ Flavanoids : num 3.06 2.76 3.24 3.49 2.69 3.39 2.52 2.51 2.98 3.15 ...
## $ Nonflavanoid_Phenols: num 0.28 0.26 0.3 0.24 0.39 0.34 0.3 0.31 0.29 0.22 ...
## $ Proanthocyanins : num 2.29 1.28 2.81 2.18 1.82 1.97 1.98 1.25 1.98 1.85 ...
## $ Color_Intensity : num 5.64 4.38 5.68 7.8 4.32 6.75 5.25 5.05 5.2 7.22 ...
## $ Hue : num 1.04 1.05 1.03 0.86 1.04 1.05 1.02 1.06 1.08 1.01 ...
## $ OD280_OD315 : num 3.92 3.4 3.17 3.45 2.93 2.85 3.58 3.58 2.85 3.55 ...
## $ Proline : int 1065 1050 1185 1480 735 1450 1290 1295 1045 1045 ...
## Class Alcohol Malic_Acid Ash
## Min. :1.000 Min. :11.03 Min. :0.740 Min. :1.360
## 1st Qu.:1.000 1st Qu.:12.36 1st Qu.:1.603 1st Qu.:2.210
## Median :2.000 Median :13.05 Median :1.865 Median :2.360
## Mean :1.938 Mean :13.00 Mean :2.336 Mean :2.367
## 3rd Qu.:3.000 3rd Qu.:13.68 3rd Qu.:3.083 3rd Qu.:2.558
## Max. :3.000 Max. :14.83 Max. :5.800 Max. :3.230
## Alcalinity_of_Ash Magnesium Total_Phenols Flavanoids
## Min. :10.60 Min. : 70.00 Min. :0.980 Min. :0.340
## 1st Qu.:17.20 1st Qu.: 88.00 1st Qu.:1.742 1st Qu.:1.205
## Median :19.50 Median : 98.00 Median :2.355 Median :2.135
## Mean :19.49 Mean : 99.74 Mean :2.295 Mean :2.029
## 3rd Qu.:21.50 3rd Qu.:107.00 3rd Qu.:2.800 3rd Qu.:2.875
## Max. :30.00 Max. :162.00 Max. :3.880 Max. :5.080
## Nonflavanoid_Phenols Proanthocyanins Color_Intensity Hue
## Min. :0.1300 Min. :0.410 Min. : 1.280 Min. :0.4800
## 1st Qu.:0.2700 1st Qu.:1.250 1st Qu.: 3.220 1st Qu.:0.7825
## Median :0.3400 Median :1.555 Median : 4.690 Median :0.9650
## Mean :0.3619 Mean :1.591 Mean : 5.058 Mean :0.9574
## 3rd Qu.:0.4375 3rd Qu.:1.950 3rd Qu.: 6.200 3rd Qu.:1.1200
## Max. :0.6600 Max. :3.580 Max. :13.000 Max. :1.7100
## OD280_OD315 Proline
## Min. :1.270 Min. : 278.0
## 1st Qu.:1.938 1st Qu.: 500.5
## Median :2.780 Median : 673.5
## Mean :2.612 Mean : 746.9
## 3rd Qu.:3.170 3rd Qu.: 985.0
## Max. :4.000 Max. :1680.0
## [1] "Class" "Alcohol" "Malic_Acid"
## [4] "Ash" "Alcalinity_of_Ash" "Magnesium"
## [7] "Total_Phenols" "Flavanoids" "Nonflavanoid_Phenols"
## [10] "Proanthocyanins" "Color_Intensity" "Hue"
## [13] "OD280_OD315" "Proline"
Dataset & Variabel
- Dataset terdiri dari 178 sampel wine dengan 14 atribut fisikokimia.
- Variabel Class merepresentasikan kategori wine (1, 2, 3), sedangkan seluruh variabel lainnya bersifat numerik, seperti Alcohol, Malic_Acid, Flavanoids, dan Proline.
Distribusi Umum
- Alcohol: rentang 11–14.8, rata-rata sekitar 13, dengan sedikit skew ke kanan.
- Malic_Acid: 0.74–5.8, median lebih rendah dari mean, menunjukkan distribusi miring ke kanan.
- Ash & Alcalinity_of_Ash: variasi sedang (Ash: 1.36–3.23; Alcalinity: 10.6–30).
- Magnesium: 70–162, distribusi relatif luas.
- Total_Phenols & Flavanoids: fluktuasi signifikan; Flavanoids mencapai 5.08.
- Color_Intensity & Proline: variasi tinggi, mengindikasikan sampel ekstrem.
- Hue & Nonflavanoid_Phenols: rentang lebih sempit, menunjukkan variabilitas rendah.
Karakteristik Data
- Beberapa variabel, seperti Color_Intensity dan Proline, menunjukkan potensi outlier.
- Perbedaan skala antar variabel mengharuskan standardisasi sebelum penerapan metode clustering berbasis jarak.
- Terdapat korelasi potensial antar variabel fenolik (Total_Phenols, Flavanoids, Proanthocyanins), sehingga rekomendasi penggunaan PCA untuk reduksi dimensi dan visualisasi.
Kesimpulan Eksplorasi
- Dataset bersih dan siap digunakan untuk analisis clustering.
- Variasi antar sampel cukup besar, memungkinkan pembentukan cluster yang berbeda secara signifikan.
- Beberapa variabel dominan, seperti Alcohol, Color_Intensity, Flavanoids, dan Proline, kemungkinan besar memiliki pengaruh kuat terhadap hasil pengelompokan.
8 Pra-Proses Data
8.1 Cleaning
Pemeriksaan kualitas data dilakukan untuk mendeteksi potensi masalah seperti missing values dan duplikasi data.
## Class Alcohol Malic_Acid
## 0 0 0
## Ash Alcalinity_of_Ash Magnesium
## 0 0 0
## Total_Phenols Flavanoids Nonflavanoid_Phenols
## 0 0 0
## Proanthocyanins Color_Intensity Hue
## 0 0 0
## OD280_OD315 Proline
## 0 0
## [1] 0
Hasil pemeriksaan menunjukkan bahwa:
- Tidak ditemukan missing values pada seluruh variabel
- Tidak terdapat duplikasi data
Dengan demikian, dataset dapat digunakan tanpa tindakan pembersihan tambahan (no further cleaning required).
8.2 Scaling (Standarisasi)
Hierarchical clustering berbasis jarak (Euclidean) sangat sensitif terhadap perbedaan skala antar variabel. Oleh karena itu, dilakukan proses standardisasi menggunakan z-score normalization:
\[ z = \frac{x - \mu}{\sigma} \]
Standardisasi memastikan bahwa setiap variabel berkontribusi secara setara dalam proses pengelompokan.
## Class Alcohol Malic_Acid Ash Alcalinity_of_Ash Magnesium
## [1,] -1.210529 1.5143408 -0.56066822 0.2313998 -1.1663032 1.90852151
## [2,] -1.210529 0.2455968 -0.49800856 -0.8256672 -2.4838405 0.01809398
## [3,] -1.210529 0.1963252 0.02117152 1.1062139 -0.2679823 0.08810981
## [4,] -1.210529 1.6867914 -0.34583508 0.4865539 -0.8069748 0.92829983
## [5,] -1.210529 0.2948684 0.22705328 1.8352256 0.4506745 1.27837900
## [6,] -1.210529 1.4773871 -0.51591132 0.3043010 -1.2860793 0.85828399
## Total_Phenols Flavanoids Nonflavanoid_Phenols Proanthocyanins
## [1,] 0.8067217 1.0319081 -0.6577078 1.2214385
## [2,] 0.5670481 0.7315653 -0.8184106 -0.5431887
## [3,] 0.8067217 1.2121137 -0.4970050 2.1299594
## [4,] 2.4844372 1.4623994 -0.9791134 1.0292513
## [5,] 0.8067217 0.6614853 0.2261576 0.4002753
## [6,] 1.5576991 1.3622851 -0.1755994 0.6623487
## Color_Intensity OD280_OD315 Proline
## [1,] 0.2510088 1.8427215 1.01015939
## [2,] -0.2924962 1.1103172 0.96252635
## [3,] 0.2682629 0.7863692 1.39122370
## [4,] 1.1827317 1.1807407 2.32800680
## [5,] -0.3183774 0.4483365 -0.03776747
## [6,] 0.7298108 0.3356589 2.23274072
Interpretasi Hasil Standarisasi
- Skala Setara: Semua variabel numerik kini memiliki rata-rata 0 dan standar deviasi 1, sehingga kontribusi tiap variabel seimbang dalam perhitungan jarak Euclidean.
- Variabilitas Terjaga: Pola variasi tiap variabel tetap terlihat; variabel seperti Proline atau Color_Intensity masih menunjukkan perbedaan antar sampel.
- Outlier Terkontrol: Sampel ekstrem tetap ada, namun pengaruhnya proporsional sehingga tidak mendominasi clustering.
- Siap Analisis Multivariat: Dataset siap untuk hierarchical clustering dan PCA, dengan korelasi antar variabel tetap terjaga.
- Hasil Clustering Lebih Representatif: Cluster nantinya mencerminkan perbedaan karakteristik fisikokimia sebenarnya, bukan perbedaan skala variabel.
8.3 Encoding:
Seluruh variabel dalam dataset merupakan nilai numerik hasil pengukuran fisikokimia (mis. alcohol, pH, sulphates). Dengan demikian:
- Tidak diperlukan encoding kategorikal
- Tidak diperlukan proses one-hot encoding maupun label encoding
Dataset sepenuhnya siap digunakan pada tahap analisis clustering.
9 Teknik Reduksi Dimensi
PCA dipilih untuk reduksi karena:
- Variabel saling berkorelasi
- Mempermudah visualisasi multidimensi ke 2D
## PC1 PC2
## 1 -3.616343 -1.1316511
## 2 -2.484580 0.6021695
## 3 -2.846346 -0.7906250
## 4 -4.322821 -2.1605844
## 5 -1.383057 -0.9073716
## 6 -3.396140 -1.8937404
Interpretasi PCA
- PC1 & PC2: PC1 menangkap variansi terbesar (karakteristik utama), PC2 variansi tambahan yang membedakan sampel minor.
- Pola Skor: Banyak observasi PC1 negatif besar → beberapa sampel ekstrem; PC2 bervariasi → membedakan sifat kimia tertentu.
- Struktur Cluster: Observasi jauh dari pusat menunjukkan potensi cluster alami.
- Kesimpulan: PCA efektif mereduksi dimensi ke 2D, mempermudah visualisasi dan mendukung analisis clustering.
10 Pemodelan Hierarchical Clustering
Dilakukan dengan:
- Agglomerative
- Divisive
- Linkage: Single, Complete, Average, Ward
10.1 Proses Model:
10.1.1 Silhouette Score (k = 2–10) untuk Semua Metode
Tujuan:
- Menjawab Pertanyaan Riset 2 → “Metode linkage mana yang paling stabil?”
- Menjawab Pertanyaan Riset 3 → “Agglomerative vs DIANA mana yang terbaik?”
10.1.2 Cophenetic Correlation (Stability Score)
## method cophenetic
## 1 single 0.6058036
## 2 complete 0.6749138
## 3 average 0.7785969
## 4 ward 0.6623606
## 5 diana 0.7122816
10.1.3 Tabel Perbandingan (Silhouette Tertinggi + Cophenetic)
## # A tibble: 5 × 4
## method best_k best_sil cophenetic
## <chr> <int> <dbl> <dbl>
## 1 single 2 0.199 0.606
## 2 complete 2 0.263 0.675
## 3 average 6 0.309 0.779
## 4 ward 2 0.285 0.662
## 5 diana 2 0.287 0.712
10.1.4 ARI, NMI, DB index, dan CH index
## method k ARI NMI DB CH
## 1 single 2 -0.001963002 0.004776482 0.6931879 2.057741
## 2 complete 2 0.328645303 0.335737949 1.5496051 72.023404
## 3 average 6 0.861052498 0.781466946 1.0650643 42.485493
## 4 ward 2 0.529674051 0.507857862 1.4171689 75.120648
## 5 diana 2 0.417183850 0.417846381 1.4592808 80.443761
10.1.5 Runtime
## method user_time sys_time elapsed
## single.user.self single 0.00 0 0.00
## complete.user.self complete 0.00 0 0.00
## average.user.self average 0.00 0 0.00
## ward.user.self ward 0.00 0 0.02
## diana.user.self diana 0.01 0 0.00
Interpretasi Hasil Clustering
Average linkage tetap menjadi metode terbaik. Selain menghasilkan silhouette tertinggi (0.309 pada k = 6) dan cophenetic paling stabil (0.779), metode ini juga menunjukkan performa sangat kuat pada metrik supervised: ARI = 0.861 dan NMI = 0.781, yang menandakan struktur cluster sangat sesuai dengan label asli. Nilai DB (1.06) dan CH (42.48) turut memperkuat bahwa cluster yang terbentuk kompak sekaligus terpisah dengan baik.
Ward linkage berada di posisi kedua. Nilai ARI (0.529) dan NMI (0.508) berada pada tingkat moderat, dengan CH tertinggi pada konfigurasi k kecil (75.12) serta silhouette stabil (0.285). Metode ini cocok digunakan ketika jumlah cluster yang diinginkan sedikit (misalnya k = 2) dan model yang dihasilkan ingin tetap sederhana.
Diana menunjukkan performa menengah. Metode ini memperoleh ARI (0.417) dan NMI (0.418), silhouette cukup baik untuk k = 2 (0.287), serta cophenetic correlation yang kuat (0.712). Diana sesuai untuk data yang lebih cocok dengan pendekatan divisive hierarchical clustering.
Complete linkage menghasilkan performa yang moderat. Nilai ARI (0.329) dan NMI (0.336) tidak terlalu rendah, namun DB yang lebih besar (1.55) mengindikasikan cluster kurang kompak dibanding metode yang lebih baik. Cophenetic correlation sedang (0.675), menunjukkan kualitas struktur cluster yang tidak terlalu kuat namun masih dapat diterima.
Single linkage menjadi metode dengan performa terburuk. Nilai silhouette rendah, cophenetic paling lemah, ARI hampir nol, serta CH sangat kecil. Semua indikator ini menunjukkan adanya chaining effect yang membuat struktur cluster tidak stabil dan sulit diinterpretasi.
Dari sisi runtime, seluruh metode sangat efisien. Ward dan Single linkage adalah yang paling cepat (≈ 0 detik), sementara Average, Complete, dan Diana memerlukan 0.02–0.05 detik. Perbedaan waktu ini sangat kecil dan tidak menjadi faktor utama dalam pemilihan metode.
Kesimpulan
Secara keseluruhan, Average linkage (k = 6) merupakan opsi terbaik berdasarkan seluruh metrik evaluasi, baik unsupervised maupun supervised. Ward linkage (k = 2) tetap layak dipilih jika dibutuhkan cluster lebih sedikit, sedangkan Single linkage sebaiknya tidak digunakan untuk dataset ini.
10.2 Langkah Evaluasi Parameter:
Tentukan k melalui:
10.2.1 Gap Statistic
## logW E.logW gap SE.sim k
## 1 5.374685 5.837228 0.4625425 0.01237435 1
## 2 5.181539 5.739527 0.5579887 0.01431831 2
## 3 5.059424 5.681170 0.6217457 0.01420322 3
## 4 5.007180 5.638005 0.6308245 0.01299769 4
## 5 4.975669 5.604828 0.6291586 0.01225964 5
## 6 4.943826 5.575701 0.6318756 0.01248387 6
## 7 4.915098 5.548937 0.6338386 0.01254116 7
## 8 4.884637 5.524262 0.6396249 0.01262900 8
## 9 4.858181 5.501014 0.6428323 0.01274314 9
## 10 4.826511 5.478859 0.6523482 0.01292038 10
Interpretasi Gap Statistic
- Nilai Gap terus meningkat dari k = 1 hingga k = 10 tanpa penurunan berarti. → Menandakan bahwa pemisahan cluster semakin baik ketika k ditambah.
- Karena tidak ada plateau atau penurunan yang memenuhi aturan Gap(k) ≥ Gap(k+1) − SE(k+1), → Gap Statistic tidak memberikan k optimal yang jelas.
- Kenaikan Gap mulai melambat setelah k = 6–7, menunjukkan struktur cluster mulai stabil.
- Gap tertinggi berada pada k = 10, tetapi berdasarkan pola tren dan evaluasi lain (Silhouette, CH, ARI/NMI) rekomendasi yang lebih konsisten berada pada k = 6.
10.2.2 Highest Silhouette
## k sil
## 1 2 0.2850875
## 2 3 0.2712583
## 3 4 0.2397418
## 4 5 0.2517401
## 5 6 0.2215980
## 6 7 0.1625918
## 7 8 0.1464078
## 8 9 0.1457050
## 9 10 0.1343897
Interpretasi Highest Silhouette
- Nilai silhouette tertinggi terjadi pada k = 2 (0.285), menunjukkan bahwa pembentukan 2 cluster memberikan pemisahan dan kekompakan terbaik dibandingkan jumlah cluster lainnya.
- Nilai silhouette menurun setelah k > 2, yang berarti ketika jumlah cluster ditambah, kualitas pemisahan antar-cluster semakin melemah.
- Pada k = 3–6, skor masih moderat tetapi lebih rendah dari k = 2, menandakan struktur cluster yang semakin tidak jelas.
- Mulai k ≥ 7, nilai silhouette turun signifikan (< 0.17), menunjukkan bahwa pembentukan banyak cluster tidak lagi mencerminkan struktur alami data.
- Secara umum, silhouette mendukung bahwa data paling stabil ketika dikelompokkan menjadi 2 cluster.
10.2.3 ELBOW DENDROGRAM
1. Dendrogram Ward tanpa k-range
Interpretasi
- Dendrogram menunjukkan bagaimana observasi digabungkan secara bertahap berdasarkan jarak minimum dalam Ward’s method.
- Terlihat dua lonjakan tinggi pada level fusi besar, menandakan pemisahan yang kuat antara beberapa kelompok utama.
- Setelah dua pemisahan besar tersebut, cabang-cabang berikutnya lebih pendek → mengindikasikan pembagian yang lebih halus antar subcluster.
Kesimpulan:
Dendrogram menunjukkan adanya 3 kelompok besar yang cukup jelas sebelum pohon bercabang lebih rapat.
2. Numerical Elbow (Fusion Height Plot)
Interpretasi
- Pada awal merge step, fusion height sangat tinggi (±38 → ±26 → ±16 → ±12): Ini menunjukkan bahwa penggabungan pada langkah awal menyatukan cluster yang sangat berbeda, yaitu pemisahan cluster makro.
- Setelah sekitar merge step ke-3 atau ke-4, grafik menurun drastis lalu mulai stabil menurun perlahan.
- Titik “tekukan” (elbow) terlihat di sekitar merge step 3, di mana penurunan tinggi mulai berkurang signifikan.
Kesimpulan:
Elbow plot mendukung 3 cluster, karena setelah 3 penggabungan besar, struktur data tidak lagi mengalami perubahan drastis.
3. Cut cluster:
## cluster_ward
## 1 2 3
## 64 61 53
Interpretasi
- Tiga cluster yang dihasilkan memiliki ukuran yang relatif seimbang → tidak ada cluster yang mendominasi atau terlalu kecil.
- Ini menandakan bahwa pembagian k = 3 cukup natural, karena data terdistribusi secara proporsional.
- Ukuran cluster yang mirip juga menunjukkan bahwa Ward berhasil memaksimalkan homogenitas dalam cluster dan meminimalkan variasi antar cluster.
Kesimpulan Keseluruhan
Baik dendrogram maupun fusion height plot konsisten merekomendasikan k = 3 sebagai jumlah cluster optimal untuk metode Ward, dan hasil cut cluster menunjukkan struktur yang seimbang serta interpretasi yang logis terhadap pola pengelompokan data.
11 Visualisasi Hasil
Visualisasi wajib meliputi:
11.1 Dendrogram
Dendrogram menunjukkan proses penggabungan cluster secara hierarkis menggunakan metode Ward.D2 yang bertujuan meminimalkan within-cluster variance. Pemotongan pada k = 3 menghasilkan:
- Tiga kelompok utama yang memiliki jarak pemisahan cukup jelas.
- Level fusi antar cabang menunjukkan bahwa struktur cluster tidak tumpang tindih.
- Cluster 1 terpisah lebih awal → mengindikasikan karakteristik yang lebih berbeda dibanding dua cluster lainnya.
- Hal ini konsisten dengan hasil Gap Statistic dan Silhouette. Hierarchical clustering lebih sensitif terhadap struktur bertingkat, jadi ia dapat “melihat” cluster tambahan yang Silhouette anggap kurang stabil, sehingga k = 3 merupakan jumlah cluster yang valid secara statistik.
11.2 PCA plot + labeling cluster
Plot PCA memperlihatkan distribusi tiga cluster pada ruang dua dimensi hasil reduksi variabel fisikokimia. Terlihat bahwa:
- Cluster 1 membentuk kelompok tersendiri dengan penyebaran relatif sempit → mengindikasikan profil kimia yang homogen.
- Cluster 2 dan 3 memiliki sebaran yang lebih lebar dan saling menjauh, menandakan variasi kimia internal lebih besar.
- Vektor PCA1 dan PCA2 menangkap >55% variasi total data, cukup representatif untuk memahami struktur cluster.
Kesimpulan:
- Setiap cluster memiliki karakteristik fisikokimia yang berbeda dan pemisahannya cukup jelas di ruang PCA.
11.3 Heatmap wilayah cluster
Heatmap menunjukkan nilai rata-rata setiap variabel kimia pada masing-masing cluster.
Ringkasan pola signifikan (umum pada Wine Quality dataset):
- Cluster 1
- Tinggi: fixed acidity, volatile acidity
- Rendah: residual sugar, chlorides → Mengarah pada wine lebih acidic dan lebih “tajam”.
- Cluster 2
- Tinggi: residual sugar, sulphates, density → Mengarah pada wine yang lebih manis dan lebih stabil.
- Cluster 3
- Komposisi lebih moderat dan seimbang → Cenderung wine dengan profil kimia paling stabil secara keseluruhan.
- Kesimpulan heatmap:
- Setiap cluster memiliki fingerprint kimia yang khas, menunjukkan bahwa algoritma Ward.D2 berhasil membedakan kelompok wine berdasarkan parameter fisikokimia.
11.4 Reachability Plot
Reachability Distance adalah ukuran seberapa “mudah” suatu titik dapat dicapai dari titik lain dalam konteks kepadatan.
Untuk titik p dan o: \[ RD(p \mid o) = \max \big( core\_distance(o),\ distance(o,p) \big) \]
Digunakan untuk melihat:
- apakah titik itu masuk cluster padat,
- apakah titik adalah noise,
- atau apakah titik berada di perbatasan cluster.
Interpretasi Reachability Plot (OPTICS)
- Beberapa lembah yang cukup dalam terlihat pada beberapa bagian plot (sekitar titik ke-20, 60, 120, dan 180) → ini menunjukkan beberapa region dengan densitas tinggi yang berfungsi sebagai calon cluster utama.
- Setiap lembah diikuti puncak (nilai reachability meningkat tajam) → puncak ini menandai transisi atau batas antar cluster, sehingga cluster dipisahkan secara alami oleh kenaikan reachability.
- Perubahan ketinggian lembah tidak sama → menandakan bahwa cluster yang terbentuk memiliki kepadatan berbeda-beda, bukan cluster yang homogen.
- Bagian awal dan akhir kurva memiliki reachability lebih tinggi → sering kali menunjukkan adanya titik border atau sampel yang posisinya berada di pinggir struktur cluster.
- Pola naik–turun yang konsisten di sepanjang grafik mengindikasikan bahwa dataset memang memiliki struktur clustering non-linier, sehingga OPTICS cocok karena dapat mendeteksi cluster berdensitas bervariasi, tidak seperti k-means atau hierarchical konvensional.
Kesimpulan: Reachability plot ini menunjukkan bahwa dataset memiliki beberapa cluster alami dengan densitas berbeda, dan OPTICS berhasil memperlihatkan struktur tersebut dengan jelas.
12 Evaluasi & Perbandingan Model
Gunakan metrik:
| Metode | Silhouette | CH Index | DB Index | Cophenetic | ARI/NMI |
|---|---|---|---|---|---|
| Average | tertinggi | baik | rendah | sangat baik | sangat tinggi |
| Agglomerative-Ward | tinggi | sangat baik | rendah | baik | sedang |
| Divisive (DIANA) | sedang | sedang | sedang–tinggi | baik | sedang |
| Complete | sedang–rendah | sedang | cukup tinggi | sedang | rendah–sedang |
| Single | sangat rendah | sangat rendah | sangat tinggi | rendah | sangat rendah |
Keterangan kategori berdasarkan kecocokan relatif terhadap metrik kuantitatif (silhouette, CH, DBI, cophenetic) dan evaluasi eksternal (ARI & NMI).
13 Kesimpulan Akhir & Rekomendasi
Secara keseluruhan, proses analisis clustering yang dilakukan—mulai dari eksplorasi data, pemodelan hierarchical clustering dengan berbagai metode (Average, Ward, DIANA, Complete, Single), hingga evaluasi internal dan eksternal—menunjukkan bahwa struktur alami data cenderung mengelompok secara jelas menjadi tiga kelompok utama. Metrik evaluasi seperti Silhouette, CH Index, DB Index, cophenetic correlation, serta ARI dan NMI memberikan gambaran yang konsisten bahwa metode-metode hierarchical tertentu mampu menangkap pola terstruktur dalam data lebih baik daripada yang lain.
Meskipun Average linkage menghasilkan performa terbaik pada konfigurasi klaster yang lebih banyak (k = 6), hasil tersebut membentuk segmentasi yang relatif terfragmentasi dan kurang optimal untuk tujuan interpretasi serta implementasi praktis. Sebaliknya, Ward linkage memberikan keseimbangan paling stabil antara kompaknya cluster, pemisahan antar cluster, serta kesederhanaan model, didukung oleh nilai CH Index yang sangat tinggi, struktur dendrogram yang jelas, serta hasil visualisasi PCA yang memperlihatkan tiga kelompok besar yang konsisten.
Berdasarkan integrasi seluruh hasil evaluasi, metode Ward linkage dengan 3 klaster menjadi pilihan yang paling tepat. Konfigurasi ini:
- meminimalkan varians dalam cluster,
- menghasilkan pemisahan cluster yang jelas tanpa over-segmentation,
- menghasilkan struktur yang stabil dan mudah diinterpretasikan,
- dan sesuai dengan indikator visual seperti dendrogram dan PCA.
Rekomendasi final: gunakan Agglomerative Ward linkage dengan 3 klaster sebagai model akhir karena memberikan representasi yang paling seimbang, stabil, dan paling menggambarkan struktur sesungguhnya dari data. Model ini dinilai paling optimal untuk tujuan analisis lanjutan, interpretasi karakteristik tiap cluster, maupun implementasi pada tahap pemanfaatan data berikutnya.