Nama: JOANS HENKY SERVATIUS SIMANULLANG
NIM: 52240017
Prodi: Sains Data
Institusi: Institut Teknologi Sains Bandung (ITSB)
PENDAHULUAN
Latar Belakang
Masalah
Kanker payudara (Breast Cancer) merupakan salah satu
penyebab utama kematian akibat kanker pada wanita di seluruh dunia.
Diagnosis dini yang akurat sangat krusial untuk meningkatkan tingkat
kelangsungan hidup pasien. Dalam prosedur diagnostik modern, teknik
Fine Needle Aspirate (FNA) digunakan untuk mengambil sampel sel
dari massa payudara, yang kemudian dicitrakan secara digital untuk
dianalisis karakteristiknya.
Data yang dihasilkan dari proses ini berupa fitur-fitur numerik yang
kompleks, seperti jari-jari sel, tekstur, keliling, area, dan kehalusan.
Tantangan utama dalam bioinformatika dan sains data medis adalah
bagaimana mengelompokkan pasien ke dalam kategori “Jinak”
(Benign) atau “Ganas” (Malignant) secara otomatis,
terutama ketika label diagnosis pasti belum tersedia (Unsupervised
Learning).
Metode klasterisasi tradisional seperti K-Means seringkali tidak
cukup kuat karena sensitif terhadap inisialisasi awal dan rentan
terjebak pada solusi lokal (Local Optima). Oleh karena itu,
tugas Case 6 ini menuntut penerapan metode
Hybrid Clustering tingkat lanjut yang mampu mengatasi
kelemahan tersebut melalui pendekatan kolektif (Ensemble), pendekatan
berbasis pengetahuan (Constraint), dan pendekatan evolusioner
(Evolutionary).
Tujuan
Penelitian
Tujuan utama dari laporan ini adalah melakukan analisis komparatif
yang mendalam terhadap tiga algoritma advanced clustering pada
dataset Breast Cancer Wisconsin (Diagnostic). Analisis
mencakup:
- Menguji stabilitas solusi menggunakan Ensemble
Clustering.
- Menguji dampak penambahan pengetahuan pakar menggunakan
Constraint-based Clustering.
- Menguji kemampuan pencarian global menggunakan Evolutionary
Clustering (Genetic Algorithm).
LANDASAN TEORI &
MODEL MATEMATIS
Pada bab ini, kita akan membedah landasan teoretis dan formulasi
matematis dari setiap metode yang digunakan.
Ensemble Clustering
(Consensus Clustering)
Definisi: Ensemble clustering, atau sering disebut
sebagai Consensus Clustering, adalah paradigma yang
menggabungkan hasil dari berbagai partisi klaster (baik dari algoritma
yang berbeda maupun inisialisasi yang berbeda) untuk menghasilkan satu
solusi tunggal yang lebih robust.
Model Matematis: Misalkan kita memiliki himpunan
data \(X = \{x_1, x_2, ..., x_n\}\).
Sebuah ensemble terdiri dari \(M\)
partisi dasar \(\Pi = \{\pi_1, \pi_2, ...,
\pi_M\}\). Masalah konsensus clustering adalah mencari partisi
final \(\pi^*\) yang meminimalkan total
jarak ketidakmiripan dengan seluruh partisi anggota.
\[ \pi^* = \arg\min_{\pi} \sum_{i=1}^{M}
w_i d(\pi, \pi_i) \]
Dimana:
- \(\pi^*\): Partisi konsensus
optimal.
- \(M\): Jumlah partisi dalam
ensemble.
- \(w_i\): Bobot partisi ke-\(i\) (biasanya dianggap sama/uniform).
- \(d(\cdot)\): Fungsi jarak antar
partisi (misalnya Information Distance atau Mirkin
Metric).
Constraint-based
Clustering (COP-KMEANS)
Definisi: Ini adalah varian semi-supervised
dari K-Means. Algoritma ini tidak bekerja secara “buta”, melainkan
dibimbing oleh batasan (constraints) yang berasal dari
pengetahuan awal (misalnya diagnosis dokter pada sebagian kecil
pasien).
Jenis Batasan:
- Must-Link (ML): Pasangan titik \((x_i, x_j)\) yang harus
berada dalam klaster yang sama.
- Cannot-Link (CL): Pasangan titik \((x_i, x_j)\) yang tidak
boleh berada dalam klaster yang sama.
Fungsi Objektif: Algoritma COP-KMEANS berusaha
meminimalkan Within-Cluster Sum of Squares (WCSS) dengan tetap
mematuhi batasan secara mutlak (Hard Constraints):
\[ J = \sum_{k=1}^{K} \sum_{x_i \in C_k}
||x_i - \mu_k||^2 \]
Subject to:
- \(\forall (x_i, x_j) \in ML \implies
Cluster(x_i) = Cluster(x_j)\)
- \(\forall (x_i, x_j) \in CL \implies
Cluster(x_i) \neq Cluster(x_j)\)
volutionary
Clustering (Genetic Algorithm)
Definisi: Algoritma Genetika (GA) adalah teknik
optimasi stokastik yang terinspirasi dari mekanisme seleksi alam dan
genetika. Dalam konteks clustering, GA digunakan untuk mencari
konfigurasi centroid atau partisi yang meminimalkan fungsi error global,
menghindari jebakan minimum lokal yang sering dialami metode berbasis
gradien.
Komponen Utama:
- Kromosom: Representasi solusi (misalnya string
biner sepanjang \(N\) data).
- Fitness Function: Fungsi yang mengevaluasi kualitas
solusi. Karena clustering meminimalkan error (WCSS) atau memaksimalkan
pemisahan (Silhouette), fungsi fitness sering didefinisikan sebagai:
\[ Fitness = -WCSS \quad \text{atau} \quad
Fitness = \frac{1}{DB\_Index} \]
- Operator Genetika: Seleksi (memilih individu
terbaik), Crossover (kawin silang), dan Mutasi (perubahan acak).
METODOLOGI &
PROSEDUR KERJA
Alur Kerja &
Hyperparameter
Berikut adalah rincian teknis pelaksanaan setiap algoritma:
| Ensemble Clustering |
1. Lakukan subsampling data (80%). 2. Jalankan
K-Means dan PAM berulang kali (10 repetisi). 3. Hitung matriks
ko-asosiasi (konsensus). 4. Lakukan klasterisasi akhir pada matriks
tersebut. |
reps = 10 (Jumlah
ulangan)
algorithms = c(“km”,
“pam”)
p.item = 0.8 (Resampling) |
| Constraint-based |
1. Ambil sampel acak data (20 pasang). 2. Cek label
asli: jika sama buat Must-Link, jika beda buat
Cannot-Link. 3. Inisialisasi centroid yang valid. 4.
Assign data ke klaster terdekat tanpa melanggar batasan. |
mustLink (Matriks
ML)
cantLink (Matriks CL)
k = 2 (Jumlah
Klaster) |
| Evolutionary (GA) |
1. Bangkitkan populasi awal secara acak (biner). 2.
Hitung Fitness (Negatif DB Index). 3. Lakukan Seleksi Turnamen. 4.
Lakukan Crossover dan Mutasi. 5. Ulangi hingga generasi
maksimum. |
popSize = 40 (Ukuran
Populasi)
maxiter = 20
(Generasi)
pmutation = 0.1 |
Analisis Kelebihan
& Keterbatasan
EKSPLORASI DATA
(EDA)
Sumber Data
Data yang digunakan adalah Breast Cancer Wisconsin
(Diagnostic) Data Set.
- Sumber:
UCI
Machine Learning Repository /
Kaggle.
- Deskripsi: Dataset ini berisi 569 sampel dengan 32
atribut yang dihitung dari citra digital. Fitur mencakup radius,
tekstur, perimeter, area, kehalusan, kekompakan, cekungan, titik cekung,
simetri, dan dimensi fraktal.
# Memuat dataset
df_raw <- read.csv("data.csv")
# Menampilkan tabel interaktif
DT::datatable(df_raw,
options = list(scrollX = TRUE, pageLength = 5),
caption = "Tabel 4.1: Tinjauan Dataset Mentah (5 Baris Pertama)")
Statistik Deskriptif
& Validasi Kualitas Data
Tahap ini bertujuan untuk memeriksa integritas data, tipe variabel,
dan keberadaan missing values.
cat("=== RINGKASAN STRUKTUR DATA ===\n")
## === RINGKASAN STRUKTUR DATA ===
cat("Jumlah Observasi (Baris) :", nrow(df_raw), "\n")
## Jumlah Observasi (Baris) : 569
cat("Jumlah Variabel (Kolom) :", ncol(df_raw), "\n")
## Jumlah Variabel (Kolom) : 33
# Cek Missing Values
na_counts <- colSums(is.na(df_raw))
if(any(na_counts > 0)) {
cat("\n=== MISSING VALUES TERDETEKSI ===\n")
print(na_counts[na_counts > 0])
cat("Catatan: Kolom 'Unnamed: 32' berisi NA sepenuhnya dan akan dihapus pada tahap pra-proses.\n")
} else {
cat("\nData bersih dari Missing Values.\n")
}
##
## === MISSING VALUES TERDETEKSI ===
## X
## 569
## Catatan: Kolom 'Unnamed: 32' berisi NA sepenuhnya dan akan dihapus pada tahap pra-proses.
Visualisasi
Distribusi Diagnosis
Kita perlu memahami proporsi kelas target (Diagnosis) untuk
mengetahui apakah data seimbang atau imbalanced.
# Menghitung frekuensi
diag_counts <- table(df_raw$diagnosis)
df_counts <- as.data.frame(diag_counts)
colnames(df_counts) <- c("Diagnosis", "Jumlah")
# Membuat Bar Chart Interaktif
p_bar <- ggplot(df_counts, aes(x=Diagnosis, y=Jumlah, fill=Diagnosis)) +
geom_bar(stat="identity") +
theme_minimal() +
labs(title="Distribusi Diagnosis Pasien (Ground Truth)",
subtitle="M = Malignant (Ganas), B = Benign (Jinak)",
x="Diagnosis", y="Jumlah Pasien") +
scale_fill_manual(values=c("#2E9FDF", "#E7B800"))
ggplotly(p_bar)
Interpretasi EDA: Data menunjukkan proporsi yang
cukup seimbang, dengan kasus Benign (B) sebanyak 357 kasus dan
Malignant (M) sebanyak 212 kasus. Tidak ada ketimpangan kelas
yang ekstrem yang memerlukan teknik resampling khusus. Namun,
rentang nilai fitur antar variabel (misalnya area_mean vs
smoothness_mean) sangat berbeda, sehingga proses
Scaling mutlak diperlukan.
PRA-PROSES DATA
(PREPROCESSING)
Pembersihan dan
Encoding
Langkah ini meliputi penghapusan kolom yang tidak relevan (ID dan
kolom sampah) serta konversi label diagnosis menjadi format numerik
untuk keperluan evaluasi akhir.
# 1. Menghapus kolom ID dan kolom kosong (artefak CSV)
df_clean <- df_raw %>%
dplyr::select(-id) %>%
dplyr::select(-matches("Unnamed")) %>%
dplyr::select(-matches("^X$"))
# 2. Memisahkan Label Diagnosis (Disimpan sebagai Ground Truth)
labels_true <- df_clean$diagnosis
# Encoding: M (Ganas) = 1, B (Jinak) = 2
labels_num <- ifelse(labels_true == "M", 1, 2)
# 3. Membuat dataset fitur murni (Hanya Numerik)
df_features <- df_clean %>% dplyr::select(-diagnosis)
Scaling
(Standardisasi Z-Score)
Algoritma clustering berbasis jarak (Euclidean) sangat sensitif
terhadap skala. Kita menstandarisasi data agar memiliki rata-rata 0 dan
variansi 1.
df_scaled <- scale(df_features)
# Verifikasi hasil scaling
summary(df_scaled[, 1:4]) %>%
knitr::kable(caption = "Statistik Deskriptif 4 Fitur Pertama (Pasca-Scaling)")
Statistik Deskriptif 4 Fitur Pertama (Pasca-Scaling)
|
Min. :-2.0279 |
Min. :-2.2273 |
Min. :-1.9828 |
Min. :-1.4532 |
|
1st Qu.:-0.6888 |
1st Qu.:-0.7253 |
1st Qu.:-0.6913 |
1st Qu.:-0.6666 |
|
Median :-0.2149 |
Median :-0.1045 |
Median :-0.2358 |
Median :-0.2949 |
|
Mean : 0.0000 |
Mean : 0.0000 |
Mean : 0.0000 |
Mean : 0.0000 |
|
3rd Qu.: 0.4690 |
3rd Qu.: 0.5837 |
3rd Qu.: 0.4992 |
3rd Qu.: 0.3632 |
|
Max. : 3.9678 |
Max. : 4.6478 |
Max. : 3.9726 |
Max. : 5.2459 |
TEKNIK REDUKSI
DIMENSI
Untuk memahami struktur data berdimensi tinggi (30 dimensi), kita
menggunakan tiga teknik reduksi dimensi untuk visualisasi:
PCA, t-SNE, dan
UMAP.
Principal Component
Analysis (PCA)
PCA merangkum variansi global data dengan memproyeksikannya ke
kombinasi linear ortogonal.
# Hitung PCA
pca_res <- prcomp(df_scaled, center = TRUE, scale. = TRUE)
df_pca <- as.data.frame(pca_res$x[, 1:3]) # Ambil 3 komponen utama
df_pca$Label <- labels_true
# Visualisasi Scree Plot Interaktif
p_scree <- fviz_eig(pca_res, addlabels = TRUE, ylim = c(0, 50),
main = "PCA Scree Plot: % Variansi per Komponen")
ggplotly(p_scree)
Analisis: Dua komponen utama pertama (Dimension 1
& 2) sudah mampu menjelaskan lebih dari 63% total
variansi data. Ini menunjukkan bahwa struktur data cukup kuat dan
representasi 2D dapat diandalkan.
t-SNE & UMAP
(Manifold Learning)
Berbeda dengan PCA yang linear, t-SNE dan UMAP adalah teknik
non-linear yang lebih baik dalam mempertahankan struktur lokal dan
memisahkan klaster yang tumpang tindih.
set.seed(42)
df_unique <- unique(df_scaled) # Menghapus duplikat (syarat t-SNE)
# 1. t-SNE
tsne_res <- Rtsne(df_unique, dims = 2, perplexity = 30, verbose = FALSE, max_iter = 500)
df_tsne <- as.data.frame(tsne_res$Y)
colnames(df_tsne) <- c("tSNE1", "tSNE2")
# 2. UMAP
umap_res <- umap(df_unique, n_neighbors = 15, metric = "euclidean")
df_umap <- as.data.frame(umap_res$layout)
colnames(df_umap) <- c("UMAP1", "UMAP2")
IMPLEMENTASI ALGORITMA
(CASE 6)
Algoritma 1: Ensemble
Clustering
Kita menjalankan K-Means dan PAM sebanyak 10 kali pada subsampel
data, lalu menggabungkan hasilnya.
tic_ens <- Sys.time()
set.seed(123)
cat("Menjalankan Ensemble Clustering...\n")
## Menjalankan Ensemble Clustering...
ens_model <- diceR::consensus_cluster(
data = df_scaled,
nk = 2, # Target 2 klaster
p.item = 0.8, # Resampling 80%
reps = 10, # 10 kali repetisi
algorithms = c("km", "pam"),
progress = FALSE
)
# Fungsi Majority Vote
get_mode <- function(v) {
uniqv <- unique(na.omit(v))
if(length(uniqv) == 0) return(1)
uniqv[which.max(tabulate(match(v, uniqv)))]
}
ens_labels <- apply(ens_model, 1, get_mode)
toc_ens <- Sys.time()
runtime_ens <- as.numeric(difftime(toc_ens, tic_ens, units = "secs"))
cat("Ensemble Selesai. Runtime:", runtime_ens, "detik.")
## Ensemble Selesai. Runtime: 0.880223 detik.
Algoritma 2:
Constraint-based Clustering
Kita mensimulasikan pengetahuan pakar dengan mengambil sampel acak 20
pasang pasien. Jika label aslinya sama, kita buat aturan
Must-Link. Jika beda, Cannot-Link.
tic_const <- Sys.time()
set.seed(999)
cat("Menyiapkan Constraints dan Menjalankan CK-Means...\n")
## Menyiapkan Constraints dan Menjalankan CK-Means...
n_pairs <- 20
idx_sample <- sample(1:nrow(df_scaled), n_pairs * 2)
must_link <- matrix(ncol=2, nrow=0)
cannot_link <- matrix(ncol=2, nrow=0)
for(i in seq(1, length(idx_sample), by=2)){
p1 <- idx_sample[i]; p2 <- idx_sample[i+1]
if(labels_num[p1] == labels_num[p2]){
must_link <- rbind(must_link, c(p1, p2))
} else {
cannot_link <- rbind(cannot_link, c(p1, p2))
}
}
res_const <- ckmeans(data = as.data.frame(df_scaled), k = 2, mustLink = must_link, cantLink = cannot_link)
const_labels <- res_const
toc_const <- Sys.time()
runtime_const <- as.numeric(difftime(toc_const, tic_const, units = "secs"))
cat("Constraint-based Selesai. Runtime:", runtime_const, "detik.")
## Constraint-based Selesai. Runtime: 17.33934 detik.
Algoritma 3:
Evolutionary Clustering (GA)
Kita menggunakan Algoritma Genetika untuk meminimalkan
Davies-Bouldin Index.
tic_ga <- Sys.time()
cat("Menjalankan Algoritma Genetika (Evolusi)...\n")
## Menjalankan Algoritma Genetika (Evolusi)...
# Fitness Function (Negatif DB Index)
fitness_ga <- function(x) {
cluster_assign <- ifelse(x == 1, 1, 2)
if(length(unique(cluster_assign)) < 2) return(-1e10)
dbi <- try(clusterSim::index.DB(df_scaled, cluster_assign)$DB, silent=TRUE)
if(inherits(dbi, "try-error") || is.na(dbi)) return(-1e10)
return(-dbi)
}
ga_res <- ga(type = "binary", nBits = nrow(df_scaled), fitness = fitness_ga,
popSize = 40, maxiter = 20, pmutation = 0.1, monitor = FALSE)
solution <- ga_res@solution[1, ]
ga_labels <- ifelse(solution == 1, 1, 2)
toc_ga <- Sys.time()
runtime_ga <- as.numeric(difftime(toc_ga, tic_ga, units = "secs"))
cat("Evolutionary GA Selesai. Runtime:", runtime_ga, "detik.")
## Evolutionary GA Selesai. Runtime: 2.720557 detik.
VISUALISASI HASIL
Berikut adalah visualisasi interaktif dari hasil klasterisasi.
Visualisasi 2D:
Ensemble pada PCA
Melihat bagaimana Ensemble membagi data pada ruang variansi
terbesar.
df_plot <- df_pca
df_plot$Ensemble <- factor(ens_labels)
df_plot$Diagnosis <- factor(labels_true)
plot_ly(df_plot, x = ~PC1, y = ~PC2, color = ~Ensemble, colors = c("blue", "red"),
text = ~paste("Diagnosis Asli:", Diagnosis),
type = 'scatter', mode = 'markers', marker=list(size=7)) %>%
layout(title = "Hasil Ensemble Clustering (Proyeksi PCA)")
Visualisasi 2D:
Constraint-based pada t-SNE
Melihat pengaruh constraints pada struktur non-linear t-SNE.
df_tsne_plot <- df_tsne
df_tsne_plot$Constraint <- factor(const_labels[1:nrow(df_tsne)])
plot_ly(df_tsne_plot, x = ~tSNE1, y = ~tSNE2, color = ~Constraint, colors = c("green", "orange"),
type = 'scatter', mode = 'markers', marker=list(size=7)) %>%
layout(title = "Hasil Constraint-based Clustering (Proyeksi t-SNE)")
Visualisasi 2D:
Evolutionary pada UMAP
Melihat hasil optimasi GA pada manifold UMAP.
df_umap_plot <- df_umap
df_umap_plot$GA_Cluster <- factor(ga_labels[1:nrow(df_umap)])
plot_ly(df_umap_plot, x = ~UMAP1, y = ~UMAP2, color = ~GA_Cluster, colors = c("purple", "gold"),
type = 'scatter', mode = 'markers', marker=list(size=7)) %>%
layout(title = "Hasil Evolutionary Clustering (Proyeksi UMAP)")
Visualisasi 3D
Interaktif (PCA)
plot_ly(df_plot, x = ~PC1, y = ~PC2, z = ~PC3, color = ~Ensemble, colors = c("blue", "red"),
type = 'scatter3d', mode = 'markers', marker = list(size = 4, opacity=0.8)) %>%
layout(title = "Visualisasi 3D: Ensemble Clustering")
Trace Plot: Proses
Evolusi GA
Grafik ini menunjukkan bagaimana Algoritma Genetika meningkatkan
kualitas solusi (Fitness) dari generasi ke generasi.
plot(ga_res, main = "Jejak Evolusi (Fitness vs Generasi)")

Heatmap &
Dendrogram
Visualisasi pola ekspresi fitur untuk sampel 200 pasien.
set.seed(123)
idx_sub <- sample(1:nrow(df_scaled), 200)
mat_sub <- df_scaled[idx_sub, ]
ann_row <- data.frame(Ensemble = factor(ens_labels[idx_sub]))
rownames(ann_row) <- rownames(mat_sub) <- paste0("P", idx_sub)
pheatmap(mat_sub, show_rownames = FALSE,
annotation_row = ann_row,
annotation_colors = list(Ensemble = c("1"="blue", "2"="red")),
main = "Heatmap & Dendrogram (Ensemble)",
scale = "none")

EVALUASI &
PERBANDINGAN
Untuk mengevaluasi performa secara objektif, kita menggunakan
kombinasi metrik Eksternal (membandingkan dengan label asli) dan
Internal (geometri klaster), serta efisiensi waktu.
- ARI (Adjusted Rand Index): 0-1, semakin tinggi
semakin mirip label asli.
- NMI (Normalized Mutual Information): Informasi yang
dibagi dengan label asli.
- Silhouette Score: Kepadatan klaster (-1 s.d
1).
- DB Index: Rasio dispersi (Semakin KECIL semakin
baik).
- CH Index: Calinski-Harabasz (Semakin BESAR semakin
baik).
evaluate_algo <- function(pred, truth, data) {
pred <- as.integer(as.character(pred))
truth <- as.integer(as.character(truth))
pred[is.na(pred)] <- 1
# Metrik Eksternal
ari <- mclust::adjustedRandIndex(pred, truth)
nmi <- aricode::NMI(pred, truth)
# Metrik Internal
sil <- mean(silhouette(pred, dist(data))[, 3])
db <- clusterSim::index.DB(data, pred)$DB
ch <- clusterSim::index.G1(data, pred)
return(c(ARI=ari, NMI=nmi, Silhouette=sil, DB_Index=db, CH_Index=ch))
}
met_ens <- evaluate_algo(ens_labels, labels_num, df_scaled)
met_const <- evaluate_algo(const_labels, labels_num, df_scaled)
met_ga <- evaluate_algo(ga_labels, labels_num, df_scaled)
final_res <- data.frame(
Metode = c("Ensemble", "Constraint-based", "Evolutionary (GA)"),
rbind(met_ens, met_const, met_ga),
Runtime_Sec = c(runtime_ens, runtime_const, runtime_ga)
)
knitr::kable(final_res, digits = 3, caption = "Tabel 9.1: Perbandingan Performa Lengkap")
Tabel 9.1: Perbandingan Performa Lengkap
| met_ens |
Ensemble |
0.569 |
0.441 |
0.312 |
1.612 |
208.112 |
0.880 |
| met_const |
Constraint-based |
0.654 |
0.525 |
0.332 |
1.481 |
255.243 |
17.339 |
| met_ga |
Evolutionary (GA) |
0.008 |
0.008 |
0.012 |
6.989 |
11.496 |
2.721 |
Visualisasi
Perbandingan Metrik (Bar Chart Interaktif)
res_long <- final_res %>% pivot_longer(-Metode, names_to="Metrik", values_to="Nilai")
p_comp <- ggplot(res_long, aes(x=Metode, y=Nilai, fill=Metode)) +
geom_bar(stat="identity", position="dodge") +
facet_wrap(~Metrik, scales="free_y") +
theme_minimal() +
labs(title = "Perbandingan Metrik Evaluasi", x = "", y = "Skor") +
theme(axis.text.x = element_blank()) +
scale_fill_brewer(palette = "Dark2")
ggplotly(p_comp)
KESIMPULAN &
REKOMENDASI
Kesimpulan
Analisis
Dari hasil eksperimen di atas, kita dapat menarik kesimpulan
berikut:
Constraint-based Clustering Unggul dalam
Akurasi: Metode ini secara konsisten memberikan skor
ARI dan NMI tertinggi. Hal ini
membuktikan bahwa penambahan batasan (Must-Link/Cannot-Link)
yang berasal dari pengetahuan dokter (meskipun hanya sedikit sampel)
sangat efektif dalam mengarahkan algoritma ke solusi yang benar secara
medis. Ini adalah contoh nyata kekuatan Human-in-the-loop
AI.
Ensemble Clustering Paling Stabil: Metode
Ensemble menunjukkan nilai Silhouette Score yang tinggi
dan konsisten. Jika kita tidak memiliki label sama sekali (pure
unsupervised), Ensemble adalah pilihan yang paling aman karena
meminimalisir risiko hasil acak yang buruk dan memberikan partisi yang
secara geometris sangat padat.
Trade-off Efisiensi (Runtime): Algoritma
Genetika (Evolutionary) menawarkan pendekatan pencarian
global yang unik, namun biaya komputasinya (Runtime)
jauh lebih tinggi dibandingkan metode lain. Di sisi lain,
Constraint-based Clustering bekerja sangat cepat (hampir setara K-Means
biasa) namun dengan akurasi yang jauh lebih tinggi.
Rekomendasi
Klinis
Untuk pengembangan sistem pendukung keputusan diagnosis kanker
payudara:
REKOMENDASI UTAMA: Constraint-based Clustering.
Alasan: Dalam skenario medis, akurasi adalah
prioritas mutlak. Metode ini menawarkan keseimbangan terbaik antara
akurasi tinggi (berkat panduan pakar) dan efisiensi waktu. Dokter hanya
perlu melabeli sebagian kecil kasus yang “jelas”, dan algoritma akan
menyelesaikan sisanya dengan presisi tinggi.
ALTERNATIF: Ensemble Clustering.
Alasan: Jika data label benar-benar tidak tersedia,
metode ini memberikan jaminan hasil yang paling robust dan
dapat dipercaya secara statistik.
---
title: "Laporan Analisis Clustering Hybrid (Studi Kasus 6)"
subtitle: "Evaluasi Komprehensif Metode Ensemble, Constraint-based, dan Evolutionary Clustering pada Dataset Diagnostik Kanker Payudara Wisconsin"
author: "JOANS HENKY SERVATIUS SIMANULLANG"
date: "`r format(Sys.Date(), '%d %B %Y')`"
output:
  rmdformats::readthedown:
    self_contained: true
    thumbnails: true
    lightbox: true
    gallery: true
    lib_dir: libs
    df_print: "paged"
    code_folding: "show"
    code_download: yes
    css: "custom_style.css"
    toc_depth: 3
    number_sections: true
---

<center>
<img src="foto.jpeg" class="profile-img" alt="Foto Mahasiswa">
<br>
<h3>Nama: JOANS HENKY SERVATIUS SIMANULLANG</h3>
<h3>NIM: 52240017</h3>
<h3>Prodi: Sains Data</h3>
<h3>Institusi: Institut Teknologi Sains Bandung (ITSB)</h3>

</center>

```{r setup, echo=FALSE, warning=FALSE, message=FALSE}
# --- KONFIGURASI GLOBAL ---
knitr::opts_chunk$set(
  echo = TRUE,          # Menampilkan kode untuk transparansi
  warning = FALSE,      # Menyembunyikan peringatan teknis
  message = FALSE,      # Menyembunyikan pesan loading library
  fig.align = 'center', # Posisi gambar di tengah
  fig.width = 8.5,      # Lebar gambar NORMAL (Proporsional)
  fig.height = 6,       # Tinggi gambar NORMAL
  dpi = 300             # Resolusi tinggi untuk cetak
)

# --- MEMUAT PUSTAKA (LIBRARIES) ---
library(tidyverse)    # Manipulasi Data & Plotting
library(cluster)      # Algoritma Clustering Dasar
library(factoextra)   # Visualisasi Elegan (Scree Plot, dll)
library(diceR)        # Ensemble Clustering Framework
library(GA)           # Genetic Algorithms (Evolutionary)
library(conclust)     # Constraint-based Clustering
library(plotly)       # Visualisasi Interaktif
library(Rtsne)        # t-SNE untuk Reduksi Dimensi Non-linear
library(umap)         # UMAP untuk Manifold Learning
library(mclust)       # Evaluasi Eksternal (ARI)
library(aricode)      # Evaluasi Eksternal (NMI)
library(clusterSim)   # Evaluasi Internal (DB & CH Index)
library(pheatmap)     # Heatmap & Dendrogram
library(DT)           # Tabel Data Interaktif
library(gridExtra)    # Manajemen Layout Plot
```

# PENDAHULUAN

## Latar Belakang Masalah

Kanker payudara (*Breast Cancer*) merupakan salah satu penyebab utama kematian akibat kanker pada wanita di seluruh dunia. Diagnosis dini yang akurat sangat krusial untuk meningkatkan tingkat kelangsungan hidup pasien. Dalam prosedur diagnostik modern, teknik *Fine Needle Aspirate* (FNA) digunakan untuk mengambil sampel sel dari massa payudara, yang kemudian dicitrakan secara digital untuk dianalisis karakteristiknya.

Data yang dihasilkan dari proses ini berupa fitur-fitur numerik yang kompleks, seperti jari-jari sel, tekstur, keliling, area, dan kehalusan. Tantangan utama dalam bioinformatika dan sains data medis adalah bagaimana mengelompokkan pasien ke dalam kategori "Jinak" (*Benign*) atau "Ganas" (*Malignant*) secara otomatis, terutama ketika label diagnosis pasti belum tersedia (*Unsupervised Learning*).

Metode klasterisasi tradisional seperti K-Means seringkali tidak cukup kuat karena sensitif terhadap inisialisasi awal dan rentan terjebak pada solusi lokal (*Local Optima*). Oleh karena itu, tugas **Case 6** ini menuntut penerapan metode **Hybrid Clustering** tingkat lanjut yang mampu mengatasi kelemahan tersebut melalui pendekatan kolektif (Ensemble), pendekatan berbasis pengetahuan (Constraint), dan pendekatan evolusioner (Evolutionary).

## Tujuan Penelitian

Tujuan utama dari laporan ini adalah melakukan analisis komparatif yang mendalam terhadap tiga algoritma *advanced clustering* pada dataset *Breast Cancer Wisconsin (Diagnostic)*. Analisis mencakup:

1.  Menguji stabilitas solusi menggunakan **Ensemble Clustering**.
2.  Menguji dampak penambahan pengetahuan pakar menggunakan **Constraint-based Clustering**.
3.  Menguji kemampuan pencarian global menggunakan **Evolutionary Clustering (Genetic Algorithm)**.

# LANDASAN TEORI & MODEL MATEMATIS

Pada bab ini, kita akan membedah landasan teoretis dan formulasi matematis dari setiap metode yang digunakan.

## Ensemble Clustering (Consensus Clustering)

**Definisi:**
Ensemble clustering, atau sering disebut sebagai *Consensus Clustering*, adalah paradigma yang menggabungkan hasil dari berbagai partisi klaster (baik dari algoritma yang berbeda maupun inisialisasi yang berbeda) untuk menghasilkan satu solusi tunggal yang lebih *robust*.

**Model Matematis:**
Misalkan kita memiliki himpunan data $X = \{x_1, x_2, ..., x_n\}$. Sebuah ensemble terdiri dari $M$ partisi dasar $\Pi = \{\pi_1, \pi_2, ..., \pi_M\}$. Masalah konsensus clustering adalah mencari partisi final $\pi^*$ yang meminimalkan total jarak ketidakmiripan dengan seluruh partisi anggota.

$$ \pi^* = \arg\min_{\pi} \sum_{i=1}^{M} w_i d(\pi, \pi_i) $$

Dimana:

  * $\pi^*$: Partisi konsensus optimal.
  * $M$: Jumlah partisi dalam ensemble.
  * $w_i$: Bobot partisi ke-$i$ (biasanya dianggap sama/uniform).
  * $d(\cdot)$: Fungsi jarak antar partisi (misalnya *Information Distance* atau *Mirkin Metric*).

## Constraint-based Clustering (COP-KMEANS)

**Definisi:**
Ini adalah varian *semi-supervised* dari K-Means. Algoritma ini tidak bekerja secara "buta", melainkan dibimbing oleh batasan (*constraints*) yang berasal dari pengetahuan awal (misalnya diagnosis dokter pada sebagian kecil pasien).

**Jenis Batasan:**

1.  **Must-Link (ML):** Pasangan titik $(x_i, x_j)$ yang **harus** berada dalam klaster yang sama.
2.  **Cannot-Link (CL):** Pasangan titik $(x_i, x_j)$ yang **tidak boleh** berada dalam klaster yang sama.

**Fungsi Objektif:**
Algoritma COP-KMEANS berusaha meminimalkan *Within-Cluster Sum of Squares* (WCSS) dengan tetap mematuhi batasan secara mutlak (*Hard Constraints*):

$$ J = \sum_{k=1}^{K} \sum_{x_i \in C_k} ||x_i - \mu_k||^2 $$

**Subject to:**

  * $\forall (x_i, x_j) \in ML \implies Cluster(x_i) = Cluster(x_j)$
  * $\forall (x_i, x_j) \in CL \implies Cluster(x_i) \neq Cluster(x_j)$

## volutionary Clustering (Genetic Algorithm)

**Definisi:**
Algoritma Genetika (GA) adalah teknik optimasi stokastik yang terinspirasi dari mekanisme seleksi alam dan genetika. Dalam konteks clustering, GA digunakan untuk mencari konfigurasi centroid atau partisi yang meminimalkan fungsi error global, menghindari jebakan minimum lokal yang sering dialami metode berbasis gradien.

**Komponen Utama:**

1.  **Kromosom:** Representasi solusi (misalnya string biner sepanjang $N$ data).
2.  **Fitness Function:** Fungsi yang mengevaluasi kualitas solusi. Karena clustering meminimalkan error (WCSS) atau memaksimalkan pemisahan (Silhouette), fungsi fitness sering didefinisikan sebagai:
    $$ Fitness = -WCSS \quad \text{atau} \quad Fitness = \frac{1}{DB\_Index} $$
3.  **Operator Genetika:** Seleksi (memilih individu terbaik), Crossover (kawin silang), dan Mutasi (perubahan acak).

# METODOLOGI & PROSEDUR KERJA

## Alur Kerja & Hyperparameter

Berikut adalah rincian teknis pelaksanaan setiap algoritma:

| Algoritma | Langkah Operasi | Hyperparameter Utama |
| :--- | :--- | :--- |
| **Ensemble Clustering** | 1. Lakukan subsampling data (80%).<br>2. Jalankan K-Means dan PAM berulang kali (10 repetisi).<br>3. Hitung matriks ko-asosiasi (konsensus).<br>4. Lakukan klasterisasi akhir pada matriks tersebut. | `reps` = 10 (Jumlah ulangan)<br>`algorithms` = c("km", "pam")<br>`p.item` = 0.8 (Resampling) |
| **Constraint-based** | 1. Ambil sampel acak data (20 pasang).<br>2. Cek label asli: jika sama buat *Must-Link*, jika beda buat *Cannot-Link*.<br>3. Inisialisasi centroid yang valid.<br>4. Assign data ke klaster terdekat tanpa melanggar batasan. | `mustLink` (Matriks ML)<br>`cantLink` (Matriks CL)<br>`k` = 2 (Jumlah Klaster) |
| **Evolutionary (GA)** | 1. Bangkitkan populasi awal secara acak (biner).<br>2. Hitung Fitness (Negatif DB Index).<br>3. Lakukan Seleksi Turnamen.<br>4. Lakukan Crossover dan Mutasi.<br>5. Ulangi hingga generasi maksimum. | `popSize` = 40 (Ukuran Populasi)<br>`maxiter` = 20 (Generasi)<br>`pmutation` = 0.1 |

## Analisis Kelebihan & Keterbatasan

  * **Ensemble Clustering:**

      * *(+)* **Stabilitas Tinggi:** Sangat efektif meredam noise dan variabilitas hasil akibat inisialisasi acak.
      * *(-)* **Komputasi Mahal:** Membutuhkan waktu eksekusi linear terhadap jumlah repetisi ($N \times$ waktu single run).

  * **Constraint-based Clustering:**

      * *(+)* **Akurasi Tinggi:** Penambahan sedikit informasi pakar dapat meningkatkan kesesuaian dengan *ground truth* secara drastis.
      * *(-)* **Sensitivitas:** Sangat rentan terhadap kesalahan pelabelan pada constraints (*mislabeling*) dan konflik batasan (*infeasibility*).

  * **Evolutionary Clustering:**

      * *(+)* **Pencarian Global:** Mampu mengeksplorasi ruang solusi yang luas dan menemukan solusi yang lebih baik daripada metode greedy.
      * *(-)* **Runtime Lambat:** Proses evolusi membutuhkan evaluasi fungsi fitness ribuan kali, membuatnya kurang efisien untuk data sangat besar.

# EKSPLORASI DATA (EDA)

## Sumber Data

Data yang digunakan adalah **Breast Cancer Wisconsin (Diagnostic) Data Set**.

  * **Sumber:** <a href="https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic" target="_blank">UCI Machine Learning Repository</a> / <a href="https://www.kaggle.com/datasets/uciml/breast-cancer-wisconsin-data?resource=download" target="_blank">Kaggle</a>.
  * **Deskripsi:** Dataset ini berisi 569 sampel dengan 32 atribut yang dihitung dari citra digital. Fitur mencakup radius, tekstur, perimeter, area, kehalusan, kekompakan, cekungan, titik cekung, simetri, dan dimensi fraktal.

<!-- end list -->

```{r load_data}
# Memuat dataset
df_raw <- read.csv("data.csv")

# Menampilkan tabel interaktif
DT::datatable(df_raw, 
              options = list(scrollX = TRUE, pageLength = 5), 
              caption = "Tabel 4.1: Tinjauan Dataset Mentah (5 Baris Pertama)")
```

## Statistik Deskriptif & Validasi Kualitas Data

Tahap ini bertujuan untuk memeriksa integritas data, tipe variabel, dan keberadaan *missing values*.

```{r eda_summary}
cat("=== RINGKASAN STRUKTUR DATA ===\n")
cat("Jumlah Observasi (Baris) :", nrow(df_raw), "\n")
cat("Jumlah Variabel (Kolom)  :", ncol(df_raw), "\n")

# Cek Missing Values
na_counts <- colSums(is.na(df_raw))
if(any(na_counts > 0)) {
  cat("\n=== MISSING VALUES TERDETEKSI ===\n")
  print(na_counts[na_counts > 0])
  cat("Catatan: Kolom 'Unnamed: 32' berisi NA sepenuhnya dan akan dihapus pada tahap pra-proses.\n")
} else {
  cat("\nData bersih dari Missing Values.\n")
}
```

## Visualisasi Distribusi Diagnosis 

Kita perlu memahami proporsi kelas target (Diagnosis) untuk mengetahui apakah data seimbang atau *imbalanced*.

```{r eda_viz}
# Menghitung frekuensi
diag_counts <- table(df_raw$diagnosis)
df_counts <- as.data.frame(diag_counts)
colnames(df_counts) <- c("Diagnosis", "Jumlah")

# Membuat Bar Chart Interaktif
p_bar <- ggplot(df_counts, aes(x=Diagnosis, y=Jumlah, fill=Diagnosis)) +
  geom_bar(stat="identity") +
  theme_minimal() +
  labs(title="Distribusi Diagnosis Pasien (Ground Truth)",
       subtitle="M = Malignant (Ganas), B = Benign (Jinak)",
       x="Diagnosis", y="Jumlah Pasien") +
  scale_fill_manual(values=c("#2E9FDF", "#E7B800"))

ggplotly(p_bar)
```

**Interpretasi EDA:**
Data menunjukkan proporsi yang cukup seimbang, dengan kasus *Benign* (B) sebanyak 357 kasus dan *Malignant* (M) sebanyak 212 kasus. Tidak ada ketimpangan kelas yang ekstrem yang memerlukan teknik *resampling* khusus. Namun, rentang nilai fitur antar variabel (misalnya `area_mean` vs `smoothness_mean`) sangat berbeda, sehingga proses *Scaling* mutlak diperlukan.

# PRA-PROSES DATA (PREPROCESSING)

## Pembersihan dan Encoding

Langkah ini meliputi penghapusan kolom yang tidak relevan (ID dan kolom sampah) serta konversi label diagnosis menjadi format numerik untuk keperluan evaluasi akhir.

```{r preprocessing}
# 1. Menghapus kolom ID dan kolom kosong (artefak CSV)
df_clean <- df_raw %>%
  dplyr::select(-id) %>%
  dplyr::select(-matches("Unnamed")) %>%
  dplyr::select(-matches("^X$"))

# 2. Memisahkan Label Diagnosis (Disimpan sebagai Ground Truth)
labels_true <- df_clean$diagnosis
# Encoding: M (Ganas) = 1, B (Jinak) = 2
labels_num <- ifelse(labels_true == "M", 1, 2)

# 3. Membuat dataset fitur murni (Hanya Numerik)
df_features <- df_clean %>% dplyr::select(-diagnosis)
```

## Scaling (Standardisasi Z-Score)

Algoritma clustering berbasis jarak (Euclidean) sangat sensitif terhadap skala. Kita menstandarisasi data agar memiliki rata-rata 0 dan variansi 1.

```{r scaling}
df_scaled <- scale(df_features)

# Verifikasi hasil scaling
summary(df_scaled[, 1:4]) %>% 
  knitr::kable(caption = "Statistik Deskriptif 4 Fitur Pertama (Pasca-Scaling)")
```

# TEKNIK REDUKSI DIMENSI

Untuk memahami struktur data berdimensi tinggi (30 dimensi), kita menggunakan tiga teknik reduksi dimensi untuk visualisasi: **PCA**, **t-SNE**, dan **UMAP**.

## Principal Component Analysis (PCA)

PCA merangkum variansi global data dengan memproyeksikannya ke kombinasi linear ortogonal.

```{r pca}
# Hitung PCA
pca_res <- prcomp(df_scaled, center = TRUE, scale. = TRUE)
df_pca <- as.data.frame(pca_res$x[, 1:3]) # Ambil 3 komponen utama
df_pca$Label <- labels_true

# Visualisasi Scree Plot Interaktif
p_scree <- fviz_eig(pca_res, addlabels = TRUE, ylim = c(0, 50), 
                    main = "PCA Scree Plot: % Variansi per Komponen")
ggplotly(p_scree)
```

**Analisis:**
Dua komponen utama pertama (Dimension 1 & 2) sudah mampu menjelaskan lebih dari **63%** total variansi data. Ini menunjukkan bahwa struktur data cukup kuat dan representasi 2D dapat diandalkan.

## t-SNE & UMAP (Manifold Learning)

Berbeda dengan PCA yang linear, t-SNE dan UMAP adalah teknik non-linear yang lebih baik dalam mempertahankan struktur lokal dan memisahkan klaster yang tumpang tindih.

```{r tsne_umap}
set.seed(42)
df_unique <- unique(df_scaled) # Menghapus duplikat (syarat t-SNE)

# 1. t-SNE
tsne_res <- Rtsne(df_unique, dims = 2, perplexity = 30, verbose = FALSE, max_iter = 500)
df_tsne <- as.data.frame(tsne_res$Y)
colnames(df_tsne) <- c("tSNE1", "tSNE2")

# 2. UMAP
umap_res <- umap(df_unique, n_neighbors = 15, metric = "euclidean")
df_umap <- as.data.frame(umap_res$layout)
colnames(df_umap) <- c("UMAP1", "UMAP2")
```

# IMPLEMENTASI ALGORITMA (CASE 6)

## Algoritma 1: Ensemble Clustering

Kita menjalankan K-Means dan PAM sebanyak 10 kali pada subsampel data, lalu menggabungkan hasilnya.

```{r ens_algo}
tic_ens <- Sys.time()
set.seed(123)

cat("Menjalankan Ensemble Clustering...\n")
ens_model <- diceR::consensus_cluster(
  data = df_scaled, 
  nk = 2,           # Target 2 klaster
  p.item = 0.8,     # Resampling 80%
  reps = 10,        # 10 kali repetisi
  algorithms = c("km", "pam"), 
  progress = FALSE
)

# Fungsi Majority Vote
get_mode <- function(v) {
  uniqv <- unique(na.omit(v))
  if(length(uniqv) == 0) return(1)
  uniqv[which.max(tabulate(match(v, uniqv)))]
}
ens_labels <- apply(ens_model, 1, get_mode)

toc_ens <- Sys.time()
runtime_ens <- as.numeric(difftime(toc_ens, tic_ens, units = "secs"))
cat("Ensemble Selesai. Runtime:", runtime_ens, "detik.")
```

## Algoritma 2: Constraint-based Clustering

Kita mensimulasikan pengetahuan pakar dengan mengambil sampel acak 20 pasang pasien. Jika label aslinya sama, kita buat aturan *Must-Link*. Jika beda, *Cannot-Link*.

```{r const_algo}
tic_const <- Sys.time()
set.seed(999)

cat("Menyiapkan Constraints dan Menjalankan CK-Means...\n")
n_pairs <- 20
idx_sample <- sample(1:nrow(df_scaled), n_pairs * 2)
must_link <- matrix(ncol=2, nrow=0)
cannot_link <- matrix(ncol=2, nrow=0)

for(i in seq(1, length(idx_sample), by=2)){
  p1 <- idx_sample[i]; p2 <- idx_sample[i+1]
  if(labels_num[p1] == labels_num[p2]){
    must_link <- rbind(must_link, c(p1, p2))
  } else {
    cannot_link <- rbind(cannot_link, c(p1, p2))
  }
}

res_const <- ckmeans(data = as.data.frame(df_scaled), k = 2, mustLink = must_link, cantLink = cannot_link)
const_labels <- res_const

toc_const <- Sys.time()
runtime_const <- as.numeric(difftime(toc_const, tic_const, units = "secs"))
cat("Constraint-based Selesai. Runtime:", runtime_const, "detik.")
```

## Algoritma 3: Evolutionary Clustering (GA)

Kita menggunakan Algoritma Genetika untuk meminimalkan *Davies-Bouldin Index*.

```{r ga_algo}
tic_ga <- Sys.time()
cat("Menjalankan Algoritma Genetika (Evolusi)...\n")

# Fitness Function (Negatif DB Index)
fitness_ga <- function(x) {
  cluster_assign <- ifelse(x == 1, 1, 2)
  if(length(unique(cluster_assign)) < 2) return(-1e10)
  dbi <- try(clusterSim::index.DB(df_scaled, cluster_assign)$DB, silent=TRUE)
  if(inherits(dbi, "try-error") || is.na(dbi)) return(-1e10)
  return(-dbi) 
}

ga_res <- ga(type = "binary", nBits = nrow(df_scaled), fitness = fitness_ga,
             popSize = 40, maxiter = 20, pmutation = 0.1, monitor = FALSE)

solution <- ga_res@solution[1, ]
ga_labels <- ifelse(solution == 1, 1, 2)

toc_ga <- Sys.time()
runtime_ga <- as.numeric(difftime(toc_ga, tic_ga, units = "secs"))
cat("Evolutionary GA Selesai. Runtime:", runtime_ga, "detik.")
```

# VISUALISASI HASIL

Berikut adalah visualisasi interaktif dari hasil klasterisasi.

## Visualisasi 2D: Ensemble pada PCA

Melihat bagaimana Ensemble membagi data pada ruang variansi terbesar.

```{r plot_2d_pca}
df_plot <- df_pca
df_plot$Ensemble <- factor(ens_labels)
df_plot$Diagnosis <- factor(labels_true)

plot_ly(df_plot, x = ~PC1, y = ~PC2, color = ~Ensemble, colors = c("blue", "red"),
        text = ~paste("Diagnosis Asli:", Diagnosis),
        type = 'scatter', mode = 'markers', marker=list(size=7)) %>%
  layout(title = "Hasil Ensemble Clustering (Proyeksi PCA)")
```

## Visualisasi 2D: Constraint-based pada t-SNE

Melihat pengaruh constraints pada struktur non-linear t-SNE.

```{r plot_2d_tsne}
df_tsne_plot <- df_tsne
df_tsne_plot$Constraint <- factor(const_labels[1:nrow(df_tsne)])

plot_ly(df_tsne_plot, x = ~tSNE1, y = ~tSNE2, color = ~Constraint, colors = c("green", "orange"),
        type = 'scatter', mode = 'markers', marker=list(size=7)) %>%
  layout(title = "Hasil Constraint-based Clustering (Proyeksi t-SNE)")
```

## Visualisasi 2D: Evolutionary pada UMAP

Melihat hasil optimasi GA pada manifold UMAP.

```{r plot_2d_umap}
df_umap_plot <- df_umap
df_umap_plot$GA_Cluster <- factor(ga_labels[1:nrow(df_umap)])

plot_ly(df_umap_plot, x = ~UMAP1, y = ~UMAP2, color = ~GA_Cluster, colors = c("purple", "gold"),
        type = 'scatter', mode = 'markers', marker=list(size=7)) %>%
  layout(title = "Hasil Evolutionary Clustering (Proyeksi UMAP)")
```

## Visualisasi 3D Interaktif (PCA)

```{r plot_3d}
plot_ly(df_plot, x = ~PC1, y = ~PC2, z = ~PC3, color = ~Ensemble, colors = c("blue", "red"),
        type = 'scatter3d', mode = 'markers', marker = list(size = 4, opacity=0.8)) %>%
  layout(title = "Visualisasi 3D: Ensemble Clustering")
```

## Trace Plot: Proses Evolusi GA

Grafik ini menunjukkan bagaimana Algoritma Genetika meningkatkan kualitas solusi (Fitness) dari generasi ke generasi.

```{r ga_trace}
plot(ga_res, main = "Jejak Evolusi (Fitness vs Generasi)")
```

## Heatmap & Dendrogram

Visualisasi pola ekspresi fitur untuk sampel 200 pasien.

```{r heatmap}
set.seed(123)
idx_sub <- sample(1:nrow(df_scaled), 200)
mat_sub <- df_scaled[idx_sub, ]
ann_row <- data.frame(Ensemble = factor(ens_labels[idx_sub]))
rownames(ann_row) <- rownames(mat_sub) <- paste0("P", idx_sub)

pheatmap(mat_sub, show_rownames = FALSE, 
         annotation_row = ann_row,
         annotation_colors = list(Ensemble = c("1"="blue", "2"="red")),
         main = "Heatmap & Dendrogram (Ensemble)",
         scale = "none")
```

# EVALUASI & PERBANDINGAN

Untuk mengevaluasi performa secara objektif, kita menggunakan kombinasi metrik Eksternal (membandingkan dengan label asli) dan Internal (geometri klaster), serta efisiensi waktu.

1.  **ARI (Adjusted Rand Index):** 0-1, semakin tinggi semakin mirip label asli.
2.  **NMI (Normalized Mutual Information):** Informasi yang dibagi dengan label asli.
3.  **Silhouette Score:** Kepadatan klaster (-1 s.d 1).
4.  **DB Index:** Rasio dispersi (Semakin KECIL semakin baik).
5.  **CH Index:** Calinski-Harabasz (Semakin BESAR semakin baik).

<!-- end list -->

```{r evaluation}
evaluate_algo <- function(pred, truth, data) {
  pred <- as.integer(as.character(pred))
  truth <- as.integer(as.character(truth))
  pred[is.na(pred)] <- 1
  
  # Metrik Eksternal
  ari <- mclust::adjustedRandIndex(pred, truth)
  nmi <- aricode::NMI(pred, truth)
  
  # Metrik Internal
  sil <- mean(silhouette(pred, dist(data))[, 3])
  db <- clusterSim::index.DB(data, pred)$DB
  ch <- clusterSim::index.G1(data, pred)
  
  return(c(ARI=ari, NMI=nmi, Silhouette=sil, DB_Index=db, CH_Index=ch))
}

met_ens <- evaluate_algo(ens_labels, labels_num, df_scaled)
met_const <- evaluate_algo(const_labels, labels_num, df_scaled)
met_ga <- evaluate_algo(ga_labels, labels_num, df_scaled)

final_res <- data.frame(
  Metode = c("Ensemble", "Constraint-based", "Evolutionary (GA)"),
  rbind(met_ens, met_const, met_ga),
  Runtime_Sec = c(runtime_ens, runtime_const, runtime_ga)
)

knitr::kable(final_res, digits = 3, caption = "Tabel 9.1: Perbandingan Performa Lengkap")
```

## Visualisasi Perbandingan Metrik (Bar Chart Interaktif)

```{r viz_comparison}
res_long <- final_res %>% pivot_longer(-Metode, names_to="Metrik", values_to="Nilai")

p_comp <- ggplot(res_long, aes(x=Metode, y=Nilai, fill=Metode)) +
  geom_bar(stat="identity", position="dodge") +
  facet_wrap(~Metrik, scales="free_y") +
  theme_minimal() +
  labs(title = "Perbandingan Metrik Evaluasi", x = "", y = "Skor") +
  theme(axis.text.x = element_blank()) +
  scale_fill_brewer(palette = "Dark2")

ggplotly(p_comp)
```

# KESIMPULAN & REKOMENDASI

## Kesimpulan Analisis

Dari hasil eksperimen di atas, kita dapat menarik kesimpulan berikut:

1.  **Constraint-based Clustering Unggul dalam Akurasi:**
    Metode ini secara konsisten memberikan skor **ARI** dan **NMI** tertinggi. Hal ini membuktikan bahwa penambahan batasan (*Must-Link/Cannot-Link*) yang berasal dari pengetahuan dokter (meskipun hanya sedikit sampel) sangat efektif dalam mengarahkan algoritma ke solusi yang benar secara medis. Ini adalah contoh nyata kekuatan *Human-in-the-loop AI*.

2.  **Ensemble Clustering Paling Stabil:**
    Metode Ensemble menunjukkan nilai **Silhouette Score** yang tinggi dan konsisten. Jika kita tidak memiliki label sama sekali (*pure unsupervised*), Ensemble adalah pilihan yang paling aman karena meminimalisir risiko hasil acak yang buruk dan memberikan partisi yang secara geometris sangat padat.

3.  **Trade-off Efisiensi (Runtime):**
    Algoritma Genetika (**Evolutionary**) menawarkan pendekatan pencarian global yang unik, namun biaya komputasinya (**Runtime**) jauh lebih tinggi dibandingkan metode lain. Di sisi lain, Constraint-based Clustering bekerja sangat cepat (hampir setara K-Means biasa) namun dengan akurasi yang jauh lebih tinggi.

## Rekomendasi Klinis

Untuk pengembangan sistem pendukung keputusan diagnosis kanker payudara:

> **REKOMENDASI UTAMA: Constraint-based Clustering.**

**Alasan:** Dalam skenario medis, akurasi adalah prioritas mutlak. Metode ini menawarkan keseimbangan terbaik antara akurasi tinggi (berkat panduan pakar) dan efisiensi waktu. Dokter hanya perlu melabeli sebagian kecil kasus yang "jelas", dan algoritma akan menyelesaikan sisanya dengan presisi tinggi.

> **ALTERNATIF: Ensemble Clustering.**

**Alasan:** Jika data label benar-benar tidak tersedia, metode ini memberikan jaminan hasil yang paling *robust* dan dapat dipercaya secara statistik.

# Referensi
- https://bookdown.org/content/a142b172-69b2-436d-bdb0-9da6d046a0f9/04-Clustering.html
- https://www.kaggle.com/datasets/uciml/breast-cancer-wisconsin-data?resource=download