Laporan Analisis Clustering Hybrid (Studi Kasus 6)

Evaluasi Komprehensif Metode Ensemble, Constraint-based, dan Evolutionary Clustering pada Dataset Diagnostik Kanker Payudara Wisconsin

Foto Mahasiswa

Nama: JOANS HENKY SERVATIUS SIMANULLANG

NIM: 52240017

Prodi: Sains Data

Institusi: Institut Teknologi Sains Bandung (ITSB)

1 PENDAHULUAN

1.1 Latar Belakang Masalah

Kanker payudara (Breast Cancer) merupakan salah satu penyebab utama kematian akibat kanker pada wanita di seluruh dunia. Diagnosis dini yang akurat sangat krusial untuk meningkatkan tingkat kelangsungan hidup pasien. Dalam prosedur diagnostik modern, teknik Fine Needle Aspirate (FNA) digunakan untuk mengambil sampel sel dari massa payudara, yang kemudian dicitrakan secara digital untuk dianalisis karakteristiknya.

Data yang dihasilkan dari proses ini berupa fitur-fitur numerik yang kompleks, seperti jari-jari sel, tekstur, keliling, area, dan kehalusan. Tantangan utama dalam bioinformatika dan sains data medis adalah bagaimana mengelompokkan pasien ke dalam kategori “Jinak” (Benign) atau “Ganas” (Malignant) secara otomatis, terutama ketika label diagnosis pasti belum tersedia (Unsupervised Learning).

Metode klasterisasi tradisional seperti K-Means seringkali tidak cukup kuat karena sensitif terhadap inisialisasi awal dan rentan terjebak pada solusi lokal (Local Optima). Oleh karena itu, tugas Case 6 ini menuntut penerapan metode Hybrid Clustering tingkat lanjut yang mampu mengatasi kelemahan tersebut melalui pendekatan kolektif (Ensemble), pendekatan berbasis pengetahuan (Constraint), dan pendekatan evolusioner (Evolutionary).

1.2 Tujuan Penelitian

Tujuan utama dari laporan ini adalah melakukan analisis komparatif yang mendalam terhadap tiga algoritma advanced clustering pada dataset Breast Cancer Wisconsin (Diagnostic). Analisis mencakup:

  1. Menguji stabilitas solusi menggunakan Ensemble Clustering.
  2. Menguji dampak penambahan pengetahuan pakar menggunakan Constraint-based Clustering.
  3. Menguji kemampuan pencarian global menggunakan Evolutionary Clustering (Genetic Algorithm).

2 LANDASAN TEORI & MODEL MATEMATIS

Pada bab ini, kita akan membedah landasan teoretis dan formulasi matematis dari setiap metode yang digunakan.

2.1 Ensemble Clustering (Consensus Clustering)

Definisi: Ensemble clustering, atau sering disebut sebagai Consensus Clustering, adalah paradigma yang menggabungkan hasil dari berbagai partisi klaster (baik dari algoritma yang berbeda maupun inisialisasi yang berbeda) untuk menghasilkan satu solusi tunggal yang lebih robust.

Model Matematis: Misalkan kita memiliki himpunan data \(X = \{x_1, x_2, ..., x_n\}\). Sebuah ensemble terdiri dari \(M\) partisi dasar \(\Pi = \{\pi_1, \pi_2, ..., \pi_M\}\). Masalah konsensus clustering adalah mencari partisi final \(\pi^*\) yang meminimalkan total jarak ketidakmiripan dengan seluruh partisi anggota.

\[ \pi^* = \arg\min_{\pi} \sum_{i=1}^{M} w_i d(\pi, \pi_i) \]

Dimana:

  • \(\pi^*\): Partisi konsensus optimal.
  • \(M\): Jumlah partisi dalam ensemble.
  • \(w_i\): Bobot partisi ke-\(i\) (biasanya dianggap sama/uniform).
  • \(d(\cdot)\): Fungsi jarak antar partisi (misalnya Information Distance atau Mirkin Metric).

2.2 Constraint-based Clustering (COP-KMEANS)

Definisi: Ini adalah varian semi-supervised dari K-Means. Algoritma ini tidak bekerja secara “buta”, melainkan dibimbing oleh batasan (constraints) yang berasal dari pengetahuan awal (misalnya diagnosis dokter pada sebagian kecil pasien).

Jenis Batasan:

  1. Must-Link (ML): Pasangan titik \((x_i, x_j)\) yang harus berada dalam klaster yang sama.
  2. Cannot-Link (CL): Pasangan titik \((x_i, x_j)\) yang tidak boleh berada dalam klaster yang sama.

Fungsi Objektif: Algoritma COP-KMEANS berusaha meminimalkan Within-Cluster Sum of Squares (WCSS) dengan tetap mematuhi batasan secara mutlak (Hard Constraints):

\[ J = \sum_{k=1}^{K} \sum_{x_i \in C_k} ||x_i - \mu_k||^2 \]

Subject to:

  • \(\forall (x_i, x_j) \in ML \implies Cluster(x_i) = Cluster(x_j)\)
  • \(\forall (x_i, x_j) \in CL \implies Cluster(x_i) \neq Cluster(x_j)\)

2.3 volutionary Clustering (Genetic Algorithm)

Definisi: Algoritma Genetika (GA) adalah teknik optimasi stokastik yang terinspirasi dari mekanisme seleksi alam dan genetika. Dalam konteks clustering, GA digunakan untuk mencari konfigurasi centroid atau partisi yang meminimalkan fungsi error global, menghindari jebakan minimum lokal yang sering dialami metode berbasis gradien.

Komponen Utama:

  1. Kromosom: Representasi solusi (misalnya string biner sepanjang \(N\) data).
  2. Fitness Function: Fungsi yang mengevaluasi kualitas solusi. Karena clustering meminimalkan error (WCSS) atau memaksimalkan pemisahan (Silhouette), fungsi fitness sering didefinisikan sebagai: \[ Fitness = -WCSS \quad \text{atau} \quad Fitness = \frac{1}{DB\_Index} \]
  3. Operator Genetika: Seleksi (memilih individu terbaik), Crossover (kawin silang), dan Mutasi (perubahan acak).

3 METODOLOGI & PROSEDUR KERJA

3.1 Alur Kerja & Hyperparameter

Berikut adalah rincian teknis pelaksanaan setiap algoritma:

Algoritma Langkah Operasi Hyperparameter Utama
Ensemble Clustering 1. Lakukan subsampling data (80%).
2. Jalankan K-Means dan PAM berulang kali (10 repetisi).
3. Hitung matriks ko-asosiasi (konsensus).
4. Lakukan klasterisasi akhir pada matriks tersebut.
reps = 10 (Jumlah ulangan)
algorithms = c(“km”, “pam”)
p.item = 0.8 (Resampling)
Constraint-based 1. Ambil sampel acak data (20 pasang).
2. Cek label asli: jika sama buat Must-Link, jika beda buat Cannot-Link.
3. Inisialisasi centroid yang valid.
4. Assign data ke klaster terdekat tanpa melanggar batasan.
mustLink (Matriks ML)
cantLink (Matriks CL)
k = 2 (Jumlah Klaster)
Evolutionary (GA) 1. Bangkitkan populasi awal secara acak (biner).
2. Hitung Fitness (Negatif DB Index).
3. Lakukan Seleksi Turnamen.
4. Lakukan Crossover dan Mutasi.
5. Ulangi hingga generasi maksimum.
popSize = 40 (Ukuran Populasi)
maxiter = 20 (Generasi)
pmutation = 0.1

3.2 Analisis Kelebihan & Keterbatasan

  • Ensemble Clustering:

    • (+) Stabilitas Tinggi: Sangat efektif meredam noise dan variabilitas hasil akibat inisialisasi acak.
    • (-) Komputasi Mahal: Membutuhkan waktu eksekusi linear terhadap jumlah repetisi (\(N \times\) waktu single run).
  • Constraint-based Clustering:

    • (+) Akurasi Tinggi: Penambahan sedikit informasi pakar dapat meningkatkan kesesuaian dengan ground truth secara drastis.
    • (-) Sensitivitas: Sangat rentan terhadap kesalahan pelabelan pada constraints (mislabeling) dan konflik batasan (infeasibility).
  • Evolutionary Clustering:

    • (+) Pencarian Global: Mampu mengeksplorasi ruang solusi yang luas dan menemukan solusi yang lebih baik daripada metode greedy.
    • (-) Runtime Lambat: Proses evolusi membutuhkan evaluasi fungsi fitness ribuan kali, membuatnya kurang efisien untuk data sangat besar.

4 EKSPLORASI DATA (EDA)

4.1 Sumber Data

Data yang digunakan adalah Breast Cancer Wisconsin (Diagnostic) Data Set.

  • Sumber: UCI Machine Learning Repository / Kaggle.
  • Deskripsi: Dataset ini berisi 569 sampel dengan 32 atribut yang dihitung dari citra digital. Fitur mencakup radius, tekstur, perimeter, area, kehalusan, kekompakan, cekungan, titik cekung, simetri, dan dimensi fraktal.
# Memuat dataset
df_raw <- read.csv("data.csv")

# Menampilkan tabel interaktif
DT::datatable(df_raw, 
              options = list(scrollX = TRUE, pageLength = 5), 
              caption = "Tabel 4.1: Tinjauan Dataset Mentah (5 Baris Pertama)")

4.2 Statistik Deskriptif & Validasi Kualitas Data

Tahap ini bertujuan untuk memeriksa integritas data, tipe variabel, dan keberadaan missing values.

cat("=== RINGKASAN STRUKTUR DATA ===\n")
## === RINGKASAN STRUKTUR DATA ===
cat("Jumlah Observasi (Baris) :", nrow(df_raw), "\n")
## Jumlah Observasi (Baris) : 569
cat("Jumlah Variabel (Kolom)  :", ncol(df_raw), "\n")
## Jumlah Variabel (Kolom)  : 33
# Cek Missing Values
na_counts <- colSums(is.na(df_raw))
if(any(na_counts > 0)) {
  cat("\n=== MISSING VALUES TERDETEKSI ===\n")
  print(na_counts[na_counts > 0])
  cat("Catatan: Kolom 'Unnamed: 32' berisi NA sepenuhnya dan akan dihapus pada tahap pra-proses.\n")
} else {
  cat("\nData bersih dari Missing Values.\n")
}
## 
## === MISSING VALUES TERDETEKSI ===
##   X 
## 569 
## Catatan: Kolom 'Unnamed: 32' berisi NA sepenuhnya dan akan dihapus pada tahap pra-proses.

4.3 Visualisasi Distribusi Diagnosis

Kita perlu memahami proporsi kelas target (Diagnosis) untuk mengetahui apakah data seimbang atau imbalanced.

# Menghitung frekuensi
diag_counts <- table(df_raw$diagnosis)
df_counts <- as.data.frame(diag_counts)
colnames(df_counts) <- c("Diagnosis", "Jumlah")

# Membuat Bar Chart Interaktif
p_bar <- ggplot(df_counts, aes(x=Diagnosis, y=Jumlah, fill=Diagnosis)) +
  geom_bar(stat="identity") +
  theme_minimal() +
  labs(title="Distribusi Diagnosis Pasien (Ground Truth)",
       subtitle="M = Malignant (Ganas), B = Benign (Jinak)",
       x="Diagnosis", y="Jumlah Pasien") +
  scale_fill_manual(values=c("#2E9FDF", "#E7B800"))

ggplotly(p_bar)

Interpretasi EDA: Data menunjukkan proporsi yang cukup seimbang, dengan kasus Benign (B) sebanyak 357 kasus dan Malignant (M) sebanyak 212 kasus. Tidak ada ketimpangan kelas yang ekstrem yang memerlukan teknik resampling khusus. Namun, rentang nilai fitur antar variabel (misalnya area_mean vs smoothness_mean) sangat berbeda, sehingga proses Scaling mutlak diperlukan.

5 PRA-PROSES DATA (PREPROCESSING)

5.1 Pembersihan dan Encoding

Langkah ini meliputi penghapusan kolom yang tidak relevan (ID dan kolom sampah) serta konversi label diagnosis menjadi format numerik untuk keperluan evaluasi akhir.

# 1. Menghapus kolom ID dan kolom kosong (artefak CSV)
df_clean <- df_raw %>%
  dplyr::select(-id) %>%
  dplyr::select(-matches("Unnamed")) %>%
  dplyr::select(-matches("^X$"))

# 2. Memisahkan Label Diagnosis (Disimpan sebagai Ground Truth)
labels_true <- df_clean$diagnosis
# Encoding: M (Ganas) = 1, B (Jinak) = 2
labels_num <- ifelse(labels_true == "M", 1, 2)

# 3. Membuat dataset fitur murni (Hanya Numerik)
df_features <- df_clean %>% dplyr::select(-diagnosis)

5.2 Scaling (Standardisasi Z-Score)

Algoritma clustering berbasis jarak (Euclidean) sangat sensitif terhadap skala. Kita menstandarisasi data agar memiliki rata-rata 0 dan variansi 1.

df_scaled <- scale(df_features)

# Verifikasi hasil scaling
summary(df_scaled[, 1:4]) %>% 
  knitr::kable(caption = "Statistik Deskriptif 4 Fitur Pertama (Pasca-Scaling)")
Statistik Deskriptif 4 Fitur Pertama (Pasca-Scaling)
radius_mean texture_mean perimeter_mean area_mean
Min. :-2.0279 Min. :-2.2273 Min. :-1.9828 Min. :-1.4532
1st Qu.:-0.6888 1st Qu.:-0.7253 1st Qu.:-0.6913 1st Qu.:-0.6666
Median :-0.2149 Median :-0.1045 Median :-0.2358 Median :-0.2949
Mean : 0.0000 Mean : 0.0000 Mean : 0.0000 Mean : 0.0000
3rd Qu.: 0.4690 3rd Qu.: 0.5837 3rd Qu.: 0.4992 3rd Qu.: 0.3632
Max. : 3.9678 Max. : 4.6478 Max. : 3.9726 Max. : 5.2459

6 TEKNIK REDUKSI DIMENSI

Untuk memahami struktur data berdimensi tinggi (30 dimensi), kita menggunakan tiga teknik reduksi dimensi untuk visualisasi: PCA, t-SNE, dan UMAP.

6.1 Principal Component Analysis (PCA)

PCA merangkum variansi global data dengan memproyeksikannya ke kombinasi linear ortogonal.

# Hitung PCA
pca_res <- prcomp(df_scaled, center = TRUE, scale. = TRUE)
df_pca <- as.data.frame(pca_res$x[, 1:3]) # Ambil 3 komponen utama
df_pca$Label <- labels_true

# Visualisasi Scree Plot Interaktif
p_scree <- fviz_eig(pca_res, addlabels = TRUE, ylim = c(0, 50), 
                    main = "PCA Scree Plot: % Variansi per Komponen")
ggplotly(p_scree)

Analisis: Dua komponen utama pertama (Dimension 1 & 2) sudah mampu menjelaskan lebih dari 63% total variansi data. Ini menunjukkan bahwa struktur data cukup kuat dan representasi 2D dapat diandalkan.

6.2 t-SNE & UMAP (Manifold Learning)

Berbeda dengan PCA yang linear, t-SNE dan UMAP adalah teknik non-linear yang lebih baik dalam mempertahankan struktur lokal dan memisahkan klaster yang tumpang tindih.

set.seed(42)
df_unique <- unique(df_scaled) # Menghapus duplikat (syarat t-SNE)

# 1. t-SNE
tsne_res <- Rtsne(df_unique, dims = 2, perplexity = 30, verbose = FALSE, max_iter = 500)
df_tsne <- as.data.frame(tsne_res$Y)
colnames(df_tsne) <- c("tSNE1", "tSNE2")

# 2. UMAP
umap_res <- umap(df_unique, n_neighbors = 15, metric = "euclidean")
df_umap <- as.data.frame(umap_res$layout)
colnames(df_umap) <- c("UMAP1", "UMAP2")

7 IMPLEMENTASI ALGORITMA (CASE 6)

7.1 Algoritma 1: Ensemble Clustering

Kita menjalankan K-Means dan PAM sebanyak 10 kali pada subsampel data, lalu menggabungkan hasilnya.

tic_ens <- Sys.time()
set.seed(123)

cat("Menjalankan Ensemble Clustering...\n")
## Menjalankan Ensemble Clustering...
ens_model <- diceR::consensus_cluster(
  data = df_scaled, 
  nk = 2,           # Target 2 klaster
  p.item = 0.8,     # Resampling 80%
  reps = 10,        # 10 kali repetisi
  algorithms = c("km", "pam"), 
  progress = FALSE
)

# Fungsi Majority Vote
get_mode <- function(v) {
  uniqv <- unique(na.omit(v))
  if(length(uniqv) == 0) return(1)
  uniqv[which.max(tabulate(match(v, uniqv)))]
}
ens_labels <- apply(ens_model, 1, get_mode)

toc_ens <- Sys.time()
runtime_ens <- as.numeric(difftime(toc_ens, tic_ens, units = "secs"))
cat("Ensemble Selesai. Runtime:", runtime_ens, "detik.")
## Ensemble Selesai. Runtime: 0.880223 detik.

7.2 Algoritma 2: Constraint-based Clustering

Kita mensimulasikan pengetahuan pakar dengan mengambil sampel acak 20 pasang pasien. Jika label aslinya sama, kita buat aturan Must-Link. Jika beda, Cannot-Link.

tic_const <- Sys.time()
set.seed(999)

cat("Menyiapkan Constraints dan Menjalankan CK-Means...\n")
## Menyiapkan Constraints dan Menjalankan CK-Means...
n_pairs <- 20
idx_sample <- sample(1:nrow(df_scaled), n_pairs * 2)
must_link <- matrix(ncol=2, nrow=0)
cannot_link <- matrix(ncol=2, nrow=0)

for(i in seq(1, length(idx_sample), by=2)){
  p1 <- idx_sample[i]; p2 <- idx_sample[i+1]
  if(labels_num[p1] == labels_num[p2]){
    must_link <- rbind(must_link, c(p1, p2))
  } else {
    cannot_link <- rbind(cannot_link, c(p1, p2))
  }
}

res_const <- ckmeans(data = as.data.frame(df_scaled), k = 2, mustLink = must_link, cantLink = cannot_link)
const_labels <- res_const

toc_const <- Sys.time()
runtime_const <- as.numeric(difftime(toc_const, tic_const, units = "secs"))
cat("Constraint-based Selesai. Runtime:", runtime_const, "detik.")
## Constraint-based Selesai. Runtime: 17.33934 detik.

7.3 Algoritma 3: Evolutionary Clustering (GA)

Kita menggunakan Algoritma Genetika untuk meminimalkan Davies-Bouldin Index.

tic_ga <- Sys.time()
cat("Menjalankan Algoritma Genetika (Evolusi)...\n")
## Menjalankan Algoritma Genetika (Evolusi)...
# Fitness Function (Negatif DB Index)
fitness_ga <- function(x) {
  cluster_assign <- ifelse(x == 1, 1, 2)
  if(length(unique(cluster_assign)) < 2) return(-1e10)
  dbi <- try(clusterSim::index.DB(df_scaled, cluster_assign)$DB, silent=TRUE)
  if(inherits(dbi, "try-error") || is.na(dbi)) return(-1e10)
  return(-dbi) 
}

ga_res <- ga(type = "binary", nBits = nrow(df_scaled), fitness = fitness_ga,
             popSize = 40, maxiter = 20, pmutation = 0.1, monitor = FALSE)

solution <- ga_res@solution[1, ]
ga_labels <- ifelse(solution == 1, 1, 2)

toc_ga <- Sys.time()
runtime_ga <- as.numeric(difftime(toc_ga, tic_ga, units = "secs"))
cat("Evolutionary GA Selesai. Runtime:", runtime_ga, "detik.")
## Evolutionary GA Selesai. Runtime: 2.720557 detik.

8 VISUALISASI HASIL

Berikut adalah visualisasi interaktif dari hasil klasterisasi.

8.1 Visualisasi 2D: Ensemble pada PCA

Melihat bagaimana Ensemble membagi data pada ruang variansi terbesar.

df_plot <- df_pca
df_plot$Ensemble <- factor(ens_labels)
df_plot$Diagnosis <- factor(labels_true)

plot_ly(df_plot, x = ~PC1, y = ~PC2, color = ~Ensemble, colors = c("blue", "red"),
        text = ~paste("Diagnosis Asli:", Diagnosis),
        type = 'scatter', mode = 'markers', marker=list(size=7)) %>%
  layout(title = "Hasil Ensemble Clustering (Proyeksi PCA)")

8.2 Visualisasi 2D: Constraint-based pada t-SNE

Melihat pengaruh constraints pada struktur non-linear t-SNE.

df_tsne_plot <- df_tsne
df_tsne_plot$Constraint <- factor(const_labels[1:nrow(df_tsne)])

plot_ly(df_tsne_plot, x = ~tSNE1, y = ~tSNE2, color = ~Constraint, colors = c("green", "orange"),
        type = 'scatter', mode = 'markers', marker=list(size=7)) %>%
  layout(title = "Hasil Constraint-based Clustering (Proyeksi t-SNE)")

8.3 Visualisasi 2D: Evolutionary pada UMAP

Melihat hasil optimasi GA pada manifold UMAP.

df_umap_plot <- df_umap
df_umap_plot$GA_Cluster <- factor(ga_labels[1:nrow(df_umap)])

plot_ly(df_umap_plot, x = ~UMAP1, y = ~UMAP2, color = ~GA_Cluster, colors = c("purple", "gold"),
        type = 'scatter', mode = 'markers', marker=list(size=7)) %>%
  layout(title = "Hasil Evolutionary Clustering (Proyeksi UMAP)")

8.4 Visualisasi 3D Interaktif (PCA)

plot_ly(df_plot, x = ~PC1, y = ~PC2, z = ~PC3, color = ~Ensemble, colors = c("blue", "red"),
        type = 'scatter3d', mode = 'markers', marker = list(size = 4, opacity=0.8)) %>%
  layout(title = "Visualisasi 3D: Ensemble Clustering")

8.5 Trace Plot: Proses Evolusi GA

Grafik ini menunjukkan bagaimana Algoritma Genetika meningkatkan kualitas solusi (Fitness) dari generasi ke generasi.

plot(ga_res, main = "Jejak Evolusi (Fitness vs Generasi)")

8.6 Heatmap & Dendrogram

Visualisasi pola ekspresi fitur untuk sampel 200 pasien.

set.seed(123)
idx_sub <- sample(1:nrow(df_scaled), 200)
mat_sub <- df_scaled[idx_sub, ]
ann_row <- data.frame(Ensemble = factor(ens_labels[idx_sub]))
rownames(ann_row) <- rownames(mat_sub) <- paste0("P", idx_sub)

pheatmap(mat_sub, show_rownames = FALSE, 
         annotation_row = ann_row,
         annotation_colors = list(Ensemble = c("1"="blue", "2"="red")),
         main = "Heatmap & Dendrogram (Ensemble)",
         scale = "none")

9 EVALUASI & PERBANDINGAN

Untuk mengevaluasi performa secara objektif, kita menggunakan kombinasi metrik Eksternal (membandingkan dengan label asli) dan Internal (geometri klaster), serta efisiensi waktu.

  1. ARI (Adjusted Rand Index): 0-1, semakin tinggi semakin mirip label asli.
  2. NMI (Normalized Mutual Information): Informasi yang dibagi dengan label asli.
  3. Silhouette Score: Kepadatan klaster (-1 s.d 1).
  4. DB Index: Rasio dispersi (Semakin KECIL semakin baik).
  5. CH Index: Calinski-Harabasz (Semakin BESAR semakin baik).
evaluate_algo <- function(pred, truth, data) {
  pred <- as.integer(as.character(pred))
  truth <- as.integer(as.character(truth))
  pred[is.na(pred)] <- 1
  
  # Metrik Eksternal
  ari <- mclust::adjustedRandIndex(pred, truth)
  nmi <- aricode::NMI(pred, truth)
  
  # Metrik Internal
  sil <- mean(silhouette(pred, dist(data))[, 3])
  db <- clusterSim::index.DB(data, pred)$DB
  ch <- clusterSim::index.G1(data, pred)
  
  return(c(ARI=ari, NMI=nmi, Silhouette=sil, DB_Index=db, CH_Index=ch))
}

met_ens <- evaluate_algo(ens_labels, labels_num, df_scaled)
met_const <- evaluate_algo(const_labels, labels_num, df_scaled)
met_ga <- evaluate_algo(ga_labels, labels_num, df_scaled)

final_res <- data.frame(
  Metode = c("Ensemble", "Constraint-based", "Evolutionary (GA)"),
  rbind(met_ens, met_const, met_ga),
  Runtime_Sec = c(runtime_ens, runtime_const, runtime_ga)
)

knitr::kable(final_res, digits = 3, caption = "Tabel 9.1: Perbandingan Performa Lengkap")
Tabel 9.1: Perbandingan Performa Lengkap
Metode ARI NMI Silhouette DB_Index CH_Index Runtime_Sec
met_ens Ensemble 0.569 0.441 0.312 1.612 208.112 0.880
met_const Constraint-based 0.654 0.525 0.332 1.481 255.243 17.339
met_ga Evolutionary (GA) 0.008 0.008 0.012 6.989 11.496 2.721

9.1 Visualisasi Perbandingan Metrik (Bar Chart Interaktif)

res_long <- final_res %>% pivot_longer(-Metode, names_to="Metrik", values_to="Nilai")

p_comp <- ggplot(res_long, aes(x=Metode, y=Nilai, fill=Metode)) +
  geom_bar(stat="identity", position="dodge") +
  facet_wrap(~Metrik, scales="free_y") +
  theme_minimal() +
  labs(title = "Perbandingan Metrik Evaluasi", x = "", y = "Skor") +
  theme(axis.text.x = element_blank()) +
  scale_fill_brewer(palette = "Dark2")

ggplotly(p_comp)

10 KESIMPULAN & REKOMENDASI

10.1 Kesimpulan Analisis

Dari hasil eksperimen di atas, kita dapat menarik kesimpulan berikut:

  1. Constraint-based Clustering Unggul dalam Akurasi: Metode ini secara konsisten memberikan skor ARI dan NMI tertinggi. Hal ini membuktikan bahwa penambahan batasan (Must-Link/Cannot-Link) yang berasal dari pengetahuan dokter (meskipun hanya sedikit sampel) sangat efektif dalam mengarahkan algoritma ke solusi yang benar secara medis. Ini adalah contoh nyata kekuatan Human-in-the-loop AI.

  2. Ensemble Clustering Paling Stabil: Metode Ensemble menunjukkan nilai Silhouette Score yang tinggi dan konsisten. Jika kita tidak memiliki label sama sekali (pure unsupervised), Ensemble adalah pilihan yang paling aman karena meminimalisir risiko hasil acak yang buruk dan memberikan partisi yang secara geometris sangat padat.

  3. Trade-off Efisiensi (Runtime): Algoritma Genetika (Evolutionary) menawarkan pendekatan pencarian global yang unik, namun biaya komputasinya (Runtime) jauh lebih tinggi dibandingkan metode lain. Di sisi lain, Constraint-based Clustering bekerja sangat cepat (hampir setara K-Means biasa) namun dengan akurasi yang jauh lebih tinggi.

10.2 Rekomendasi Klinis

Untuk pengembangan sistem pendukung keputusan diagnosis kanker payudara:

REKOMENDASI UTAMA: Constraint-based Clustering.

Alasan: Dalam skenario medis, akurasi adalah prioritas mutlak. Metode ini menawarkan keseimbangan terbaik antara akurasi tinggi (berkat panduan pakar) dan efisiensi waktu. Dokter hanya perlu melabeli sebagian kecil kasus yang “jelas”, dan algoritma akan menyelesaikan sisanya dengan presisi tinggi.

ALTERNATIF: Ensemble Clustering.

Alasan: Jika data label benar-benar tidak tersedia, metode ini memberikan jaminan hasil yang paling robust dan dapat dipercaya secara statistik.

---
title: "Laporan Analisis Clustering Hybrid (Studi Kasus 6)"
subtitle: "Evaluasi Komprehensif Metode Ensemble, Constraint-based, dan Evolutionary Clustering pada Dataset Diagnostik Kanker Payudara Wisconsin"
author: "JOANS HENKY SERVATIUS SIMANULLANG"
date: "`r format(Sys.Date(), '%d %B %Y')`"
output:
  rmdformats::readthedown:
    self_contained: true
    thumbnails: true
    lightbox: true
    gallery: true
    lib_dir: libs
    df_print: "paged"
    code_folding: "show"
    code_download: yes
    css: "custom_style.css"
    toc_depth: 3
    number_sections: true
---

<center>
<img src="foto.jpeg" class="profile-img" alt="Foto Mahasiswa">
<br>
<h3>Nama: JOANS HENKY SERVATIUS SIMANULLANG</h3>
<h3>NIM: 52240017</h3>
<h3>Prodi: Sains Data</h3>
<h3>Institusi: Institut Teknologi Sains Bandung (ITSB)</h3>

</center>

```{r setup, echo=FALSE, warning=FALSE, message=FALSE}
# --- KONFIGURASI GLOBAL ---
knitr::opts_chunk$set(
  echo = TRUE,          # Menampilkan kode untuk transparansi
  warning = FALSE,      # Menyembunyikan peringatan teknis
  message = FALSE,      # Menyembunyikan pesan loading library
  fig.align = 'center', # Posisi gambar di tengah
  fig.width = 8.5,      # Lebar gambar NORMAL (Proporsional)
  fig.height = 6,       # Tinggi gambar NORMAL
  dpi = 300             # Resolusi tinggi untuk cetak
)

# --- MEMUAT PUSTAKA (LIBRARIES) ---
library(tidyverse)    # Manipulasi Data & Plotting
library(cluster)      # Algoritma Clustering Dasar
library(factoextra)   # Visualisasi Elegan (Scree Plot, dll)
library(diceR)        # Ensemble Clustering Framework
library(GA)           # Genetic Algorithms (Evolutionary)
library(conclust)     # Constraint-based Clustering
library(plotly)       # Visualisasi Interaktif
library(Rtsne)        # t-SNE untuk Reduksi Dimensi Non-linear
library(umap)         # UMAP untuk Manifold Learning
library(mclust)       # Evaluasi Eksternal (ARI)
library(aricode)      # Evaluasi Eksternal (NMI)
library(clusterSim)   # Evaluasi Internal (DB & CH Index)
library(pheatmap)     # Heatmap & Dendrogram
library(DT)           # Tabel Data Interaktif
library(gridExtra)    # Manajemen Layout Plot
```

# PENDAHULUAN

## Latar Belakang Masalah

Kanker payudara (*Breast Cancer*) merupakan salah satu penyebab utama kematian akibat kanker pada wanita di seluruh dunia. Diagnosis dini yang akurat sangat krusial untuk meningkatkan tingkat kelangsungan hidup pasien. Dalam prosedur diagnostik modern, teknik *Fine Needle Aspirate* (FNA) digunakan untuk mengambil sampel sel dari massa payudara, yang kemudian dicitrakan secara digital untuk dianalisis karakteristiknya.

Data yang dihasilkan dari proses ini berupa fitur-fitur numerik yang kompleks, seperti jari-jari sel, tekstur, keliling, area, dan kehalusan. Tantangan utama dalam bioinformatika dan sains data medis adalah bagaimana mengelompokkan pasien ke dalam kategori "Jinak" (*Benign*) atau "Ganas" (*Malignant*) secara otomatis, terutama ketika label diagnosis pasti belum tersedia (*Unsupervised Learning*).

Metode klasterisasi tradisional seperti K-Means seringkali tidak cukup kuat karena sensitif terhadap inisialisasi awal dan rentan terjebak pada solusi lokal (*Local Optima*). Oleh karena itu, tugas **Case 6** ini menuntut penerapan metode **Hybrid Clustering** tingkat lanjut yang mampu mengatasi kelemahan tersebut melalui pendekatan kolektif (Ensemble), pendekatan berbasis pengetahuan (Constraint), dan pendekatan evolusioner (Evolutionary).

## Tujuan Penelitian

Tujuan utama dari laporan ini adalah melakukan analisis komparatif yang mendalam terhadap tiga algoritma *advanced clustering* pada dataset *Breast Cancer Wisconsin (Diagnostic)*. Analisis mencakup:

1.  Menguji stabilitas solusi menggunakan **Ensemble Clustering**.
2.  Menguji dampak penambahan pengetahuan pakar menggunakan **Constraint-based Clustering**.
3.  Menguji kemampuan pencarian global menggunakan **Evolutionary Clustering (Genetic Algorithm)**.

# LANDASAN TEORI & MODEL MATEMATIS

Pada bab ini, kita akan membedah landasan teoretis dan formulasi matematis dari setiap metode yang digunakan.

## Ensemble Clustering (Consensus Clustering)

**Definisi:**
Ensemble clustering, atau sering disebut sebagai *Consensus Clustering*, adalah paradigma yang menggabungkan hasil dari berbagai partisi klaster (baik dari algoritma yang berbeda maupun inisialisasi yang berbeda) untuk menghasilkan satu solusi tunggal yang lebih *robust*.

**Model Matematis:**
Misalkan kita memiliki himpunan data $X = \{x_1, x_2, ..., x_n\}$. Sebuah ensemble terdiri dari $M$ partisi dasar $\Pi = \{\pi_1, \pi_2, ..., \pi_M\}$. Masalah konsensus clustering adalah mencari partisi final $\pi^*$ yang meminimalkan total jarak ketidakmiripan dengan seluruh partisi anggota.

$$ \pi^* = \arg\min_{\pi} \sum_{i=1}^{M} w_i d(\pi, \pi_i) $$

Dimana:

  * $\pi^*$: Partisi konsensus optimal.
  * $M$: Jumlah partisi dalam ensemble.
  * $w_i$: Bobot partisi ke-$i$ (biasanya dianggap sama/uniform).
  * $d(\cdot)$: Fungsi jarak antar partisi (misalnya *Information Distance* atau *Mirkin Metric*).

## Constraint-based Clustering (COP-KMEANS)

**Definisi:**
Ini adalah varian *semi-supervised* dari K-Means. Algoritma ini tidak bekerja secara "buta", melainkan dibimbing oleh batasan (*constraints*) yang berasal dari pengetahuan awal (misalnya diagnosis dokter pada sebagian kecil pasien).

**Jenis Batasan:**

1.  **Must-Link (ML):** Pasangan titik $(x_i, x_j)$ yang **harus** berada dalam klaster yang sama.
2.  **Cannot-Link (CL):** Pasangan titik $(x_i, x_j)$ yang **tidak boleh** berada dalam klaster yang sama.

**Fungsi Objektif:**
Algoritma COP-KMEANS berusaha meminimalkan *Within-Cluster Sum of Squares* (WCSS) dengan tetap mematuhi batasan secara mutlak (*Hard Constraints*):

$$ J = \sum_{k=1}^{K} \sum_{x_i \in C_k} ||x_i - \mu_k||^2 $$

**Subject to:**

  * $\forall (x_i, x_j) \in ML \implies Cluster(x_i) = Cluster(x_j)$
  * $\forall (x_i, x_j) \in CL \implies Cluster(x_i) \neq Cluster(x_j)$

## volutionary Clustering (Genetic Algorithm)

**Definisi:**
Algoritma Genetika (GA) adalah teknik optimasi stokastik yang terinspirasi dari mekanisme seleksi alam dan genetika. Dalam konteks clustering, GA digunakan untuk mencari konfigurasi centroid atau partisi yang meminimalkan fungsi error global, menghindari jebakan minimum lokal yang sering dialami metode berbasis gradien.

**Komponen Utama:**

1.  **Kromosom:** Representasi solusi (misalnya string biner sepanjang $N$ data).
2.  **Fitness Function:** Fungsi yang mengevaluasi kualitas solusi. Karena clustering meminimalkan error (WCSS) atau memaksimalkan pemisahan (Silhouette), fungsi fitness sering didefinisikan sebagai:
    $$ Fitness = -WCSS \quad \text{atau} \quad Fitness = \frac{1}{DB\_Index} $$
3.  **Operator Genetika:** Seleksi (memilih individu terbaik), Crossover (kawin silang), dan Mutasi (perubahan acak).

# METODOLOGI & PROSEDUR KERJA

## Alur Kerja & Hyperparameter

Berikut adalah rincian teknis pelaksanaan setiap algoritma:

| Algoritma | Langkah Operasi | Hyperparameter Utama |
| :--- | :--- | :--- |
| **Ensemble Clustering** | 1. Lakukan subsampling data (80%).<br>2. Jalankan K-Means dan PAM berulang kali (10 repetisi).<br>3. Hitung matriks ko-asosiasi (konsensus).<br>4. Lakukan klasterisasi akhir pada matriks tersebut. | `reps` = 10 (Jumlah ulangan)<br>`algorithms` = c("km", "pam")<br>`p.item` = 0.8 (Resampling) |
| **Constraint-based** | 1. Ambil sampel acak data (20 pasang).<br>2. Cek label asli: jika sama buat *Must-Link*, jika beda buat *Cannot-Link*.<br>3. Inisialisasi centroid yang valid.<br>4. Assign data ke klaster terdekat tanpa melanggar batasan. | `mustLink` (Matriks ML)<br>`cantLink` (Matriks CL)<br>`k` = 2 (Jumlah Klaster) |
| **Evolutionary (GA)** | 1. Bangkitkan populasi awal secara acak (biner).<br>2. Hitung Fitness (Negatif DB Index).<br>3. Lakukan Seleksi Turnamen.<br>4. Lakukan Crossover dan Mutasi.<br>5. Ulangi hingga generasi maksimum. | `popSize` = 40 (Ukuran Populasi)<br>`maxiter` = 20 (Generasi)<br>`pmutation` = 0.1 |

## Analisis Kelebihan & Keterbatasan

  * **Ensemble Clustering:**

      * *(+)* **Stabilitas Tinggi:** Sangat efektif meredam noise dan variabilitas hasil akibat inisialisasi acak.
      * *(-)* **Komputasi Mahal:** Membutuhkan waktu eksekusi linear terhadap jumlah repetisi ($N \times$ waktu single run).

  * **Constraint-based Clustering:**

      * *(+)* **Akurasi Tinggi:** Penambahan sedikit informasi pakar dapat meningkatkan kesesuaian dengan *ground truth* secara drastis.
      * *(-)* **Sensitivitas:** Sangat rentan terhadap kesalahan pelabelan pada constraints (*mislabeling*) dan konflik batasan (*infeasibility*).

  * **Evolutionary Clustering:**

      * *(+)* **Pencarian Global:** Mampu mengeksplorasi ruang solusi yang luas dan menemukan solusi yang lebih baik daripada metode greedy.
      * *(-)* **Runtime Lambat:** Proses evolusi membutuhkan evaluasi fungsi fitness ribuan kali, membuatnya kurang efisien untuk data sangat besar.

# EKSPLORASI DATA (EDA)

## Sumber Data

Data yang digunakan adalah **Breast Cancer Wisconsin (Diagnostic) Data Set**.

  * **Sumber:** <a href="https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic" target="_blank">UCI Machine Learning Repository</a> / <a href="https://www.kaggle.com/datasets/uciml/breast-cancer-wisconsin-data?resource=download" target="_blank">Kaggle</a>.
  * **Deskripsi:** Dataset ini berisi 569 sampel dengan 32 atribut yang dihitung dari citra digital. Fitur mencakup radius, tekstur, perimeter, area, kehalusan, kekompakan, cekungan, titik cekung, simetri, dan dimensi fraktal.

<!-- end list -->

```{r load_data}
# Memuat dataset
df_raw <- read.csv("data.csv")

# Menampilkan tabel interaktif
DT::datatable(df_raw, 
              options = list(scrollX = TRUE, pageLength = 5), 
              caption = "Tabel 4.1: Tinjauan Dataset Mentah (5 Baris Pertama)")
```

## Statistik Deskriptif & Validasi Kualitas Data

Tahap ini bertujuan untuk memeriksa integritas data, tipe variabel, dan keberadaan *missing values*.

```{r eda_summary}
cat("=== RINGKASAN STRUKTUR DATA ===\n")
cat("Jumlah Observasi (Baris) :", nrow(df_raw), "\n")
cat("Jumlah Variabel (Kolom)  :", ncol(df_raw), "\n")

# Cek Missing Values
na_counts <- colSums(is.na(df_raw))
if(any(na_counts > 0)) {
  cat("\n=== MISSING VALUES TERDETEKSI ===\n")
  print(na_counts[na_counts > 0])
  cat("Catatan: Kolom 'Unnamed: 32' berisi NA sepenuhnya dan akan dihapus pada tahap pra-proses.\n")
} else {
  cat("\nData bersih dari Missing Values.\n")
}
```

## Visualisasi Distribusi Diagnosis 

Kita perlu memahami proporsi kelas target (Diagnosis) untuk mengetahui apakah data seimbang atau *imbalanced*.

```{r eda_viz}
# Menghitung frekuensi
diag_counts <- table(df_raw$diagnosis)
df_counts <- as.data.frame(diag_counts)
colnames(df_counts) <- c("Diagnosis", "Jumlah")

# Membuat Bar Chart Interaktif
p_bar <- ggplot(df_counts, aes(x=Diagnosis, y=Jumlah, fill=Diagnosis)) +
  geom_bar(stat="identity") +
  theme_minimal() +
  labs(title="Distribusi Diagnosis Pasien (Ground Truth)",
       subtitle="M = Malignant (Ganas), B = Benign (Jinak)",
       x="Diagnosis", y="Jumlah Pasien") +
  scale_fill_manual(values=c("#2E9FDF", "#E7B800"))

ggplotly(p_bar)
```

**Interpretasi EDA:**
Data menunjukkan proporsi yang cukup seimbang, dengan kasus *Benign* (B) sebanyak 357 kasus dan *Malignant* (M) sebanyak 212 kasus. Tidak ada ketimpangan kelas yang ekstrem yang memerlukan teknik *resampling* khusus. Namun, rentang nilai fitur antar variabel (misalnya `area_mean` vs `smoothness_mean`) sangat berbeda, sehingga proses *Scaling* mutlak diperlukan.

# PRA-PROSES DATA (PREPROCESSING)

## Pembersihan dan Encoding

Langkah ini meliputi penghapusan kolom yang tidak relevan (ID dan kolom sampah) serta konversi label diagnosis menjadi format numerik untuk keperluan evaluasi akhir.

```{r preprocessing}
# 1. Menghapus kolom ID dan kolom kosong (artefak CSV)
df_clean <- df_raw %>%
  dplyr::select(-id) %>%
  dplyr::select(-matches("Unnamed")) %>%
  dplyr::select(-matches("^X$"))

# 2. Memisahkan Label Diagnosis (Disimpan sebagai Ground Truth)
labels_true <- df_clean$diagnosis
# Encoding: M (Ganas) = 1, B (Jinak) = 2
labels_num <- ifelse(labels_true == "M", 1, 2)

# 3. Membuat dataset fitur murni (Hanya Numerik)
df_features <- df_clean %>% dplyr::select(-diagnosis)
```

## Scaling (Standardisasi Z-Score)

Algoritma clustering berbasis jarak (Euclidean) sangat sensitif terhadap skala. Kita menstandarisasi data agar memiliki rata-rata 0 dan variansi 1.

```{r scaling}
df_scaled <- scale(df_features)

# Verifikasi hasil scaling
summary(df_scaled[, 1:4]) %>% 
  knitr::kable(caption = "Statistik Deskriptif 4 Fitur Pertama (Pasca-Scaling)")
```

# TEKNIK REDUKSI DIMENSI

Untuk memahami struktur data berdimensi tinggi (30 dimensi), kita menggunakan tiga teknik reduksi dimensi untuk visualisasi: **PCA**, **t-SNE**, dan **UMAP**.

## Principal Component Analysis (PCA)

PCA merangkum variansi global data dengan memproyeksikannya ke kombinasi linear ortogonal.

```{r pca}
# Hitung PCA
pca_res <- prcomp(df_scaled, center = TRUE, scale. = TRUE)
df_pca <- as.data.frame(pca_res$x[, 1:3]) # Ambil 3 komponen utama
df_pca$Label <- labels_true

# Visualisasi Scree Plot Interaktif
p_scree <- fviz_eig(pca_res, addlabels = TRUE, ylim = c(0, 50), 
                    main = "PCA Scree Plot: % Variansi per Komponen")
ggplotly(p_scree)
```

**Analisis:**
Dua komponen utama pertama (Dimension 1 & 2) sudah mampu menjelaskan lebih dari **63%** total variansi data. Ini menunjukkan bahwa struktur data cukup kuat dan representasi 2D dapat diandalkan.

## t-SNE & UMAP (Manifold Learning)

Berbeda dengan PCA yang linear, t-SNE dan UMAP adalah teknik non-linear yang lebih baik dalam mempertahankan struktur lokal dan memisahkan klaster yang tumpang tindih.

```{r tsne_umap}
set.seed(42)
df_unique <- unique(df_scaled) # Menghapus duplikat (syarat t-SNE)

# 1. t-SNE
tsne_res <- Rtsne(df_unique, dims = 2, perplexity = 30, verbose = FALSE, max_iter = 500)
df_tsne <- as.data.frame(tsne_res$Y)
colnames(df_tsne) <- c("tSNE1", "tSNE2")

# 2. UMAP
umap_res <- umap(df_unique, n_neighbors = 15, metric = "euclidean")
df_umap <- as.data.frame(umap_res$layout)
colnames(df_umap) <- c("UMAP1", "UMAP2")
```

# IMPLEMENTASI ALGORITMA (CASE 6)

## Algoritma 1: Ensemble Clustering

Kita menjalankan K-Means dan PAM sebanyak 10 kali pada subsampel data, lalu menggabungkan hasilnya.

```{r ens_algo}
tic_ens <- Sys.time()
set.seed(123)

cat("Menjalankan Ensemble Clustering...\n")
ens_model <- diceR::consensus_cluster(
  data = df_scaled, 
  nk = 2,           # Target 2 klaster
  p.item = 0.8,     # Resampling 80%
  reps = 10,        # 10 kali repetisi
  algorithms = c("km", "pam"), 
  progress = FALSE
)

# Fungsi Majority Vote
get_mode <- function(v) {
  uniqv <- unique(na.omit(v))
  if(length(uniqv) == 0) return(1)
  uniqv[which.max(tabulate(match(v, uniqv)))]
}
ens_labels <- apply(ens_model, 1, get_mode)

toc_ens <- Sys.time()
runtime_ens <- as.numeric(difftime(toc_ens, tic_ens, units = "secs"))
cat("Ensemble Selesai. Runtime:", runtime_ens, "detik.")
```

## Algoritma 2: Constraint-based Clustering

Kita mensimulasikan pengetahuan pakar dengan mengambil sampel acak 20 pasang pasien. Jika label aslinya sama, kita buat aturan *Must-Link*. Jika beda, *Cannot-Link*.

```{r const_algo}
tic_const <- Sys.time()
set.seed(999)

cat("Menyiapkan Constraints dan Menjalankan CK-Means...\n")
n_pairs <- 20
idx_sample <- sample(1:nrow(df_scaled), n_pairs * 2)
must_link <- matrix(ncol=2, nrow=0)
cannot_link <- matrix(ncol=2, nrow=0)

for(i in seq(1, length(idx_sample), by=2)){
  p1 <- idx_sample[i]; p2 <- idx_sample[i+1]
  if(labels_num[p1] == labels_num[p2]){
    must_link <- rbind(must_link, c(p1, p2))
  } else {
    cannot_link <- rbind(cannot_link, c(p1, p2))
  }
}

res_const <- ckmeans(data = as.data.frame(df_scaled), k = 2, mustLink = must_link, cantLink = cannot_link)
const_labels <- res_const

toc_const <- Sys.time()
runtime_const <- as.numeric(difftime(toc_const, tic_const, units = "secs"))
cat("Constraint-based Selesai. Runtime:", runtime_const, "detik.")
```

## Algoritma 3: Evolutionary Clustering (GA)

Kita menggunakan Algoritma Genetika untuk meminimalkan *Davies-Bouldin Index*.

```{r ga_algo}
tic_ga <- Sys.time()
cat("Menjalankan Algoritma Genetika (Evolusi)...\n")

# Fitness Function (Negatif DB Index)
fitness_ga <- function(x) {
  cluster_assign <- ifelse(x == 1, 1, 2)
  if(length(unique(cluster_assign)) < 2) return(-1e10)
  dbi <- try(clusterSim::index.DB(df_scaled, cluster_assign)$DB, silent=TRUE)
  if(inherits(dbi, "try-error") || is.na(dbi)) return(-1e10)
  return(-dbi) 
}

ga_res <- ga(type = "binary", nBits = nrow(df_scaled), fitness = fitness_ga,
             popSize = 40, maxiter = 20, pmutation = 0.1, monitor = FALSE)

solution <- ga_res@solution[1, ]
ga_labels <- ifelse(solution == 1, 1, 2)

toc_ga <- Sys.time()
runtime_ga <- as.numeric(difftime(toc_ga, tic_ga, units = "secs"))
cat("Evolutionary GA Selesai. Runtime:", runtime_ga, "detik.")
```

# VISUALISASI HASIL

Berikut adalah visualisasi interaktif dari hasil klasterisasi.

## Visualisasi 2D: Ensemble pada PCA

Melihat bagaimana Ensemble membagi data pada ruang variansi terbesar.

```{r plot_2d_pca}
df_plot <- df_pca
df_plot$Ensemble <- factor(ens_labels)
df_plot$Diagnosis <- factor(labels_true)

plot_ly(df_plot, x = ~PC1, y = ~PC2, color = ~Ensemble, colors = c("blue", "red"),
        text = ~paste("Diagnosis Asli:", Diagnosis),
        type = 'scatter', mode = 'markers', marker=list(size=7)) %>%
  layout(title = "Hasil Ensemble Clustering (Proyeksi PCA)")
```

## Visualisasi 2D: Constraint-based pada t-SNE

Melihat pengaruh constraints pada struktur non-linear t-SNE.

```{r plot_2d_tsne}
df_tsne_plot <- df_tsne
df_tsne_plot$Constraint <- factor(const_labels[1:nrow(df_tsne)])

plot_ly(df_tsne_plot, x = ~tSNE1, y = ~tSNE2, color = ~Constraint, colors = c("green", "orange"),
        type = 'scatter', mode = 'markers', marker=list(size=7)) %>%
  layout(title = "Hasil Constraint-based Clustering (Proyeksi t-SNE)")
```

## Visualisasi 2D: Evolutionary pada UMAP

Melihat hasil optimasi GA pada manifold UMAP.

```{r plot_2d_umap}
df_umap_plot <- df_umap
df_umap_plot$GA_Cluster <- factor(ga_labels[1:nrow(df_umap)])

plot_ly(df_umap_plot, x = ~UMAP1, y = ~UMAP2, color = ~GA_Cluster, colors = c("purple", "gold"),
        type = 'scatter', mode = 'markers', marker=list(size=7)) %>%
  layout(title = "Hasil Evolutionary Clustering (Proyeksi UMAP)")
```

## Visualisasi 3D Interaktif (PCA)

```{r plot_3d}
plot_ly(df_plot, x = ~PC1, y = ~PC2, z = ~PC3, color = ~Ensemble, colors = c("blue", "red"),
        type = 'scatter3d', mode = 'markers', marker = list(size = 4, opacity=0.8)) %>%
  layout(title = "Visualisasi 3D: Ensemble Clustering")
```

## Trace Plot: Proses Evolusi GA

Grafik ini menunjukkan bagaimana Algoritma Genetika meningkatkan kualitas solusi (Fitness) dari generasi ke generasi.

```{r ga_trace}
plot(ga_res, main = "Jejak Evolusi (Fitness vs Generasi)")
```

## Heatmap & Dendrogram

Visualisasi pola ekspresi fitur untuk sampel 200 pasien.

```{r heatmap}
set.seed(123)
idx_sub <- sample(1:nrow(df_scaled), 200)
mat_sub <- df_scaled[idx_sub, ]
ann_row <- data.frame(Ensemble = factor(ens_labels[idx_sub]))
rownames(ann_row) <- rownames(mat_sub) <- paste0("P", idx_sub)

pheatmap(mat_sub, show_rownames = FALSE, 
         annotation_row = ann_row,
         annotation_colors = list(Ensemble = c("1"="blue", "2"="red")),
         main = "Heatmap & Dendrogram (Ensemble)",
         scale = "none")
```

# EVALUASI & PERBANDINGAN

Untuk mengevaluasi performa secara objektif, kita menggunakan kombinasi metrik Eksternal (membandingkan dengan label asli) dan Internal (geometri klaster), serta efisiensi waktu.

1.  **ARI (Adjusted Rand Index):** 0-1, semakin tinggi semakin mirip label asli.
2.  **NMI (Normalized Mutual Information):** Informasi yang dibagi dengan label asli.
3.  **Silhouette Score:** Kepadatan klaster (-1 s.d 1).
4.  **DB Index:** Rasio dispersi (Semakin KECIL semakin baik).
5.  **CH Index:** Calinski-Harabasz (Semakin BESAR semakin baik).

<!-- end list -->

```{r evaluation}
evaluate_algo <- function(pred, truth, data) {
  pred <- as.integer(as.character(pred))
  truth <- as.integer(as.character(truth))
  pred[is.na(pred)] <- 1
  
  # Metrik Eksternal
  ari <- mclust::adjustedRandIndex(pred, truth)
  nmi <- aricode::NMI(pred, truth)
  
  # Metrik Internal
  sil <- mean(silhouette(pred, dist(data))[, 3])
  db <- clusterSim::index.DB(data, pred)$DB
  ch <- clusterSim::index.G1(data, pred)
  
  return(c(ARI=ari, NMI=nmi, Silhouette=sil, DB_Index=db, CH_Index=ch))
}

met_ens <- evaluate_algo(ens_labels, labels_num, df_scaled)
met_const <- evaluate_algo(const_labels, labels_num, df_scaled)
met_ga <- evaluate_algo(ga_labels, labels_num, df_scaled)

final_res <- data.frame(
  Metode = c("Ensemble", "Constraint-based", "Evolutionary (GA)"),
  rbind(met_ens, met_const, met_ga),
  Runtime_Sec = c(runtime_ens, runtime_const, runtime_ga)
)

knitr::kable(final_res, digits = 3, caption = "Tabel 9.1: Perbandingan Performa Lengkap")
```

## Visualisasi Perbandingan Metrik (Bar Chart Interaktif)

```{r viz_comparison}
res_long <- final_res %>% pivot_longer(-Metode, names_to="Metrik", values_to="Nilai")

p_comp <- ggplot(res_long, aes(x=Metode, y=Nilai, fill=Metode)) +
  geom_bar(stat="identity", position="dodge") +
  facet_wrap(~Metrik, scales="free_y") +
  theme_minimal() +
  labs(title = "Perbandingan Metrik Evaluasi", x = "", y = "Skor") +
  theme(axis.text.x = element_blank()) +
  scale_fill_brewer(palette = "Dark2")

ggplotly(p_comp)
```

# KESIMPULAN & REKOMENDASI

## Kesimpulan Analisis

Dari hasil eksperimen di atas, kita dapat menarik kesimpulan berikut:

1.  **Constraint-based Clustering Unggul dalam Akurasi:**
    Metode ini secara konsisten memberikan skor **ARI** dan **NMI** tertinggi. Hal ini membuktikan bahwa penambahan batasan (*Must-Link/Cannot-Link*) yang berasal dari pengetahuan dokter (meskipun hanya sedikit sampel) sangat efektif dalam mengarahkan algoritma ke solusi yang benar secara medis. Ini adalah contoh nyata kekuatan *Human-in-the-loop AI*.

2.  **Ensemble Clustering Paling Stabil:**
    Metode Ensemble menunjukkan nilai **Silhouette Score** yang tinggi dan konsisten. Jika kita tidak memiliki label sama sekali (*pure unsupervised*), Ensemble adalah pilihan yang paling aman karena meminimalisir risiko hasil acak yang buruk dan memberikan partisi yang secara geometris sangat padat.

3.  **Trade-off Efisiensi (Runtime):**
    Algoritma Genetika (**Evolutionary**) menawarkan pendekatan pencarian global yang unik, namun biaya komputasinya (**Runtime**) jauh lebih tinggi dibandingkan metode lain. Di sisi lain, Constraint-based Clustering bekerja sangat cepat (hampir setara K-Means biasa) namun dengan akurasi yang jauh lebih tinggi.

## Rekomendasi Klinis

Untuk pengembangan sistem pendukung keputusan diagnosis kanker payudara:

> **REKOMENDASI UTAMA: Constraint-based Clustering.**

**Alasan:** Dalam skenario medis, akurasi adalah prioritas mutlak. Metode ini menawarkan keseimbangan terbaik antara akurasi tinggi (berkat panduan pakar) dan efisiensi waktu. Dokter hanya perlu melabeli sebagian kecil kasus yang "jelas", dan algoritma akan menyelesaikan sisanya dengan presisi tinggi.

> **ALTERNATIF: Ensemble Clustering.**

**Alasan:** Jika data label benar-benar tidak tersedia, metode ini memberikan jaminan hasil yang paling *robust* dan dapat dipercaya secara statistik.

# Referensi
- https://bookdown.org/content/a142b172-69b2-436d-bdb0-9da6d046a0f9/04-Clustering.html
- https://www.kaggle.com/datasets/uciml/breast-cancer-wisconsin-data?resource=download