Nama: JOANS HENKY SERVATIUS SIMANULLANG
NIM: 52240017
Prodi: Sains Data
Institusi: Institut Teknologi Sains Bandung (ITSB)
PENDAHULUAN
Latar Belakang
Masalah
Kanker payudara (Breast Cancer) merupakan salah satu
penyebab utama kematian akibat kanker pada wanita di seluruh dunia.
Diagnosis dini yang akurat sangat krusial untuk meningkatkan tingkat
kelangsungan hidup pasien. Dalam prosedur diagnostik modern, teknik
Fine Needle Aspirate (FNA) digunakan untuk mengambil sampel sel
dari massa payudara, yang kemudian dicitrakan secara digital untuk
dianalisis karakteristiknya.
Data yang dihasilkan dari proses ini berupa fitur-fitur numerik yang
kompleks, seperti jari-jari sel, tekstur, keliling, area, dan kehalusan.
Tantangan utama dalam bioinformatika dan sains data medis adalah
bagaimana mengelompokkan pasien ke dalam kategori “Jinak”
(Benign) atau “Ganas” (Malignant) secara otomatis,
terutama ketika label diagnosis pasti belum tersedia (Unsupervised
Learning).
Metode klasterisasi tradisional seperti K-Means seringkali tidak
cukup kuat karena sensitif terhadap inisialisasi awal dan rentan
terjebak pada solusi lokal (Local Optima). Oleh karena itu,
tugas Case 6 ini menuntut penerapan metode
Hybrid Clustering tingkat lanjut yang mampu mengatasi
kelemahan tersebut melalui pendekatan kolektif (Ensemble), pendekatan
berbasis pengetahuan (Constraint), dan pendekatan evolusioner
(Evolutionary).
Tujuan
Penelitian
Tujuan utama dari laporan ini adalah melakukan analisis komparatif
yang mendalam terhadap tiga algoritma advanced clustering pada
dataset Breast Cancer Wisconsin (Diagnostic). Analisis
mencakup:
- Menguji stabilitas solusi menggunakan Ensemble
Clustering.
- Menguji dampak penambahan pengetahuan pakar menggunakan
Constraint-based Clustering.
- Menguji kemampuan pencarian global menggunakan Evolutionary
Clustering (Genetic Algorithm).
LANDASAN TEORI &
MODEL MATEMATIS
Pada bab ini, kita akan membedah landasan teoretis dan formulasi
matematis dari setiap metode yang digunakan.
Ensemble Clustering
(Consensus Clustering)
Definisi: Ensemble clustering, atau sering disebut
sebagai Consensus Clustering, adalah paradigma yang
menggabungkan hasil dari berbagai partisi klaster (baik dari algoritma
yang berbeda maupun inisialisasi yang berbeda) untuk menghasilkan satu
solusi tunggal yang lebih robust.
Model Matematis: Misalkan kita memiliki himpunan
data \(X = \{x_1, x_2, ..., x_n\}\).
Sebuah ensemble terdiri dari \(M\)
partisi dasar \(\Pi = \{\pi_1, \pi_2, ...,
\pi_M\}\). Masalah konsensus clustering adalah mencari partisi
final \(\pi^*\) yang meminimalkan total
jarak ketidakmiripan dengan seluruh partisi anggota.
\[ \pi^* = \arg\min_{\pi} \sum_{i=1}^{M}
w_i d(\pi, \pi_i) \]
Dimana:
- \(\pi^*\): Partisi konsensus
optimal.
- \(M\): Jumlah partisi dalam
ensemble.
- \(w_i\): Bobot partisi ke-\(i\) (biasanya dianggap sama/uniform).
- \(d(\cdot)\): Fungsi jarak antar
partisi (misalnya Information Distance atau Mirkin
Metric).
Constraint-based
Clustering (COP-KMEANS)
Definisi: Ini adalah varian semi-supervised
dari K-Means. Algoritma ini tidak bekerja secara “buta”, melainkan
dibimbing oleh batasan (constraints) yang berasal dari
pengetahuan awal (misalnya diagnosis dokter pada sebagian kecil
pasien).
Jenis Batasan:
- Must-Link (ML): Pasangan titik \((x_i, x_j)\) yang harus
berada dalam klaster yang sama.
- Cannot-Link (CL): Pasangan titik \((x_i, x_j)\) yang tidak
boleh berada dalam klaster yang sama.
Fungsi Objektif: Algoritma COP-KMEANS berusaha
meminimalkan Within-Cluster Sum of Squares (WCSS) dengan tetap
mematuhi batasan secara mutlak (Hard Constraints):
\[ J = \sum_{k=1}^{K} \sum_{x_i \in C_k}
||x_i - \mu_k||^2 \]
Subject to:
- \(\forall (x_i, x_j) \in ML \implies
Cluster(x_i) = Cluster(x_j)\)
- \(\forall (x_i, x_j) \in CL \implies
Cluster(x_i) \neq Cluster(x_j)\)
volutionary
Clustering (Genetic Algorithm)
Definisi: Algoritma Genetika (GA) adalah teknik
optimasi stokastik yang terinspirasi dari mekanisme seleksi alam dan
genetika. Dalam konteks clustering, GA digunakan untuk mencari
konfigurasi centroid atau partisi yang meminimalkan fungsi error global,
menghindari jebakan minimum lokal yang sering dialami metode berbasis
gradien.
Komponen Utama:
- Kromosom: Representasi solusi (misalnya string
biner sepanjang \(N\) data).
- Fitness Function: Fungsi yang mengevaluasi kualitas
solusi. Karena clustering meminimalkan error (WCSS) atau memaksimalkan
pemisahan (Silhouette), fungsi fitness sering didefinisikan sebagai:
\[ Fitness = -WCSS \quad \text{atau} \quad
Fitness = \frac{1}{DB\_Index} \]
- Operator Genetika: Seleksi (memilih individu
terbaik), Crossover (kawin silang), dan Mutasi (perubahan acak).
METODOLOGI &
PROSEDUR KERJA
Alur Kerja &
Hyperparameter
Berikut adalah rincian teknis pelaksanaan setiap algoritma:
| Ensemble Clustering |
1. Lakukan subsampling data (80%). 2. Jalankan
K-Means dan PAM berulang kali (10 repetisi). 3. Hitung matriks
ko-asosiasi (konsensus). 4. Lakukan klasterisasi akhir pada matriks
tersebut. |
reps = 10 (Jumlah
ulangan)
algorithms = c(“km”,
“pam”)
p.item = 0.8 (Resampling) |
| Constraint-based |
1. Ambil sampel acak data (20 pasang). 2. Cek label
asli: jika sama buat Must-Link, jika beda buat
Cannot-Link. 3. Inisialisasi centroid yang valid. 4.
Assign data ke klaster terdekat tanpa melanggar batasan. |
mustLink (Matriks
ML)
cantLink (Matriks CL)
k = 2 (Jumlah
Klaster) |
| Evolutionary (GA) |
1. Bangkitkan populasi awal secara acak (biner). 2.
Hitung Fitness (Negatif DB Index). 3. Lakukan Seleksi Turnamen. 4.
Lakukan Crossover dan Mutasi. 5. Ulangi hingga generasi
maksimum. |
popSize = 40 (Ukuran
Populasi)
maxiter = 20
(Generasi)
pmutation = 0.1 |
Analisis Kelebihan
& Keterbatasan
EKSPLORASI DATA
(EDA)
Sumber Data
Data yang digunakan adalah Breast Cancer Wisconsin
(Diagnostic) Data Set.
- Sumber:
UCI
Machine Learning Repository /
Kaggle.
- Deskripsi: Dataset ini berisi 569 sampel dengan 32
atribut yang dihitung dari citra digital. Fitur mencakup radius,
tekstur, perimeter, area, kehalusan, kekompakan, cekungan, titik cekung,
simetri, dan dimensi fraktal.
# Memuat dataset
df_raw <- read.csv("data.csv")
# Menampilkan tabel interaktif
DT::datatable(df_raw,
options = list(scrollX = TRUE, pageLength = 5),
caption = "Tabel 4.1: Tinjauan Dataset Mentah (5 Baris Pertama)")
Statistik Deskriptif
& Validasi Kualitas Data
Tahap ini bertujuan untuk memeriksa integritas data, tipe variabel,
dan keberadaan missing values.
cat("=== RINGKASAN STRUKTUR DATA ===\n")
## === RINGKASAN STRUKTUR DATA ===
cat("Jumlah Observasi (Baris) :", nrow(df_raw), "\n")
## Jumlah Observasi (Baris) : 569
cat("Jumlah Variabel (Kolom) :", ncol(df_raw), "\n")
## Jumlah Variabel (Kolom) : 33
# Cek Missing Values
na_counts <- colSums(is.na(df_raw))
if(any(na_counts > 0)) {
cat("\n=== MISSING VALUES TERDETEKSI ===\n")
print(na_counts[na_counts > 0])
cat("Catatan: Kolom 'Unnamed: 32' berisi NA sepenuhnya dan akan dihapus pada tahap pra-proses.\n")
} else {
cat("\nData bersih dari Missing Values.\n")
}
##
## === MISSING VALUES TERDETEKSI ===
## X
## 569
## Catatan: Kolom 'Unnamed: 32' berisi NA sepenuhnya dan akan dihapus pada tahap pra-proses.
Visualisasi
Distribusi Diagnosis
Kita perlu memahami proporsi kelas target (Diagnosis) untuk
mengetahui apakah data seimbang atau imbalanced.
# Menghitung frekuensi
diag_counts <- table(df_raw$diagnosis)
df_counts <- as.data.frame(diag_counts)
colnames(df_counts) <- c("Diagnosis", "Jumlah")
# Membuat Bar Chart Interaktif
p_bar <- ggplot(df_counts, aes(x=Diagnosis, y=Jumlah, fill=Diagnosis)) +
geom_bar(stat="identity") +
theme_minimal() +
labs(title="Distribusi Diagnosis Pasien (Ground Truth)",
subtitle="M = Malignant (Ganas), B = Benign (Jinak)",
x="Diagnosis", y="Jumlah Pasien") +
scale_fill_manual(values=c("#2E9FDF", "#E7B800"))
ggplotly(p_bar)
Interpretasi EDA: Data menunjukkan proporsi yang
cukup seimbang, dengan kasus Benign (B) sebanyak 357 kasus dan
Malignant (M) sebanyak 212 kasus. Tidak ada ketimpangan kelas
yang ekstrem yang memerlukan teknik resampling khusus. Namun,
rentang nilai fitur antar variabel (misalnya area_mean vs
smoothness_mean) sangat berbeda, sehingga proses
Scaling mutlak diperlukan.
PRA-PROSES DATA
(PREPROCESSING)
Pembersihan dan
Encoding
Langkah ini meliputi penghapusan kolom yang tidak relevan (ID dan
kolom sampah) serta konversi label diagnosis menjadi format numerik
untuk keperluan evaluasi akhir.
# 1. Menghapus kolom ID dan kolom kosong (artefak CSV)
df_clean <- df_raw %>%
dplyr::select(-id) %>%
dplyr::select(-matches("Unnamed")) %>%
dplyr::select(-matches("^X$"))
# 2. Memisahkan Label Diagnosis (Disimpan sebagai Ground Truth)
labels_true <- df_clean$diagnosis
# Encoding: M (Ganas) = 1, B (Jinak) = 2
labels_num <- ifelse(labels_true == "M", 1, 2)
# 3. Membuat dataset fitur murni (Hanya Numerik)
df_features <- df_clean %>% dplyr::select(-diagnosis)
Scaling
(Standardisasi Z-Score)
Algoritma clustering berbasis jarak (Euclidean) sangat sensitif
terhadap skala. Kita menstandarisasi data agar memiliki rata-rata 0 dan
variansi 1.
df_scaled <- scale(df_features)
# Verifikasi hasil scaling
summary(df_scaled[, 1:4]) %>%
knitr::kable(caption = "Statistik Deskriptif 4 Fitur Pertama (Pasca-Scaling)")
Statistik Deskriptif 4 Fitur Pertama (Pasca-Scaling)
|
Min. :-2.0279 |
Min. :-2.2273 |
Min. :-1.9828 |
Min. :-1.4532 |
|
1st Qu.:-0.6888 |
1st Qu.:-0.7253 |
1st Qu.:-0.6913 |
1st Qu.:-0.6666 |
|
Median :-0.2149 |
Median :-0.1045 |
Median :-0.2358 |
Median :-0.2949 |
|
Mean : 0.0000 |
Mean : 0.0000 |
Mean : 0.0000 |
Mean : 0.0000 |
|
3rd Qu.: 0.4690 |
3rd Qu.: 0.5837 |
3rd Qu.: 0.4992 |
3rd Qu.: 0.3632 |
|
Max. : 3.9678 |
Max. : 4.6478 |
Max. : 3.9726 |
Max. : 5.2459 |
TEKNIK REDUKSI
DIMENSI
Untuk memahami struktur data berdimensi tinggi (30 dimensi), kita
menggunakan tiga teknik reduksi dimensi untuk visualisasi:
PCA, t-SNE, dan
UMAP.
Principal Component
Analysis (PCA)
PCA merangkum variansi global data dengan memproyeksikannya ke
kombinasi linear ortogonal.
# Hitung PCA
pca_res <- prcomp(df_scaled, center = TRUE, scale. = TRUE)
df_pca <- as.data.frame(pca_res$x[, 1:3]) # Ambil 3 komponen utama
df_pca$Label <- labels_true
# Visualisasi Scree Plot Interaktif
p_scree <- fviz_eig(pca_res, addlabels = TRUE, ylim = c(0, 50),
main = "PCA Scree Plot: % Variansi per Komponen")
ggplotly(p_scree)
Analisis: Dua komponen utama pertama (Dimension 1
& 2) sudah mampu menjelaskan lebih dari 63% total
variansi data. Ini menunjukkan bahwa struktur data cukup kuat dan
representasi 2D dapat diandalkan.
t-SNE & UMAP
(Manifold Learning)
Berbeda dengan PCA yang linear, t-SNE dan UMAP adalah teknik
non-linear yang lebih baik dalam mempertahankan struktur lokal dan
memisahkan klaster yang tumpang tindih.
set.seed(42)
df_unique <- unique(df_scaled) # Menghapus duplikat (syarat t-SNE)
# 1. t-SNE
tsne_res <- Rtsne(df_unique, dims = 2, perplexity = 30, verbose = FALSE, max_iter = 500)
df_tsne <- as.data.frame(tsne_res$Y)
colnames(df_tsne) <- c("tSNE1", "tSNE2")
# 2. UMAP
umap_res <- umap(df_unique, n_neighbors = 15, metric = "euclidean")
df_umap <- as.data.frame(umap_res$layout)
colnames(df_umap) <- c("UMAP1", "UMAP2")
IMPLEMENTASI ALGORITMA
(CASE 6)
Algoritma 1: Ensemble
Clustering
Kita menjalankan K-Means dan PAM sebanyak 10 kali pada subsampel
data, lalu menggabungkan hasilnya.
tic_ens <- Sys.time()
set.seed(123)
cat("Menjalankan Ensemble Clustering...\n")
## Menjalankan Ensemble Clustering...
ens_model <- diceR::consensus_cluster(
data = df_scaled,
nk = 2, # Target 2 klaster
p.item = 0.8, # Resampling 80%
reps = 10, # 10 kali repetisi
algorithms = c("km", "pam"),
progress = FALSE
)
# Fungsi Majority Vote
get_mode <- function(v) {
uniqv <- unique(na.omit(v))
if(length(uniqv) == 0) return(1)
uniqv[which.max(tabulate(match(v, uniqv)))]
}
ens_labels <- apply(ens_model, 1, get_mode)
toc_ens <- Sys.time()
runtime_ens <- as.numeric(difftime(toc_ens, tic_ens, units = "secs"))
cat("Ensemble Selesai. Runtime:", runtime_ens, "detik.")
## Ensemble Selesai. Runtime: 0.880223 detik.
Algoritma 2:
Constraint-based Clustering
Kita mensimulasikan pengetahuan pakar dengan mengambil sampel acak 20
pasang pasien. Jika label aslinya sama, kita buat aturan
Must-Link. Jika beda, Cannot-Link.
tic_const <- Sys.time()
set.seed(999)
cat("Menyiapkan Constraints dan Menjalankan CK-Means...\n")
## Menyiapkan Constraints dan Menjalankan CK-Means...
n_pairs <- 20
idx_sample <- sample(1:nrow(df_scaled), n_pairs * 2)
must_link <- matrix(ncol=2, nrow=0)
cannot_link <- matrix(ncol=2, nrow=0)
for(i in seq(1, length(idx_sample), by=2)){
p1 <- idx_sample[i]; p2 <- idx_sample[i+1]
if(labels_num[p1] == labels_num[p2]){
must_link <- rbind(must_link, c(p1, p2))
} else {
cannot_link <- rbind(cannot_link, c(p1, p2))
}
}
res_const <- ckmeans(data = as.data.frame(df_scaled), k = 2, mustLink = must_link, cantLink = cannot_link)
const_labels <- res_const
toc_const <- Sys.time()
runtime_const <- as.numeric(difftime(toc_const, tic_const, units = "secs"))
cat("Constraint-based Selesai. Runtime:", runtime_const, "detik.")
## Constraint-based Selesai. Runtime: 17.33934 detik.
Algoritma 3:
Evolutionary Clustering (GA)
Kita menggunakan Algoritma Genetika untuk meminimalkan
Davies-Bouldin Index.
tic_ga <- Sys.time()
cat("Menjalankan Algoritma Genetika (Evolusi)...\n")
## Menjalankan Algoritma Genetika (Evolusi)...
# Fitness Function (Negatif DB Index)
fitness_ga <- function(x) {
cluster_assign <- ifelse(x == 1, 1, 2)
if(length(unique(cluster_assign)) < 2) return(-1e10)
dbi <- try(clusterSim::index.DB(df_scaled, cluster_assign)$DB, silent=TRUE)
if(inherits(dbi, "try-error") || is.na(dbi)) return(-1e10)
return(-dbi)
}
ga_res <- ga(type = "binary", nBits = nrow(df_scaled), fitness = fitness_ga,
popSize = 40, maxiter = 20, pmutation = 0.1, monitor = FALSE)
solution <- ga_res@solution[1, ]
ga_labels <- ifelse(solution == 1, 1, 2)
toc_ga <- Sys.time()
runtime_ga <- as.numeric(difftime(toc_ga, tic_ga, units = "secs"))
cat("Evolutionary GA Selesai. Runtime:", runtime_ga, "detik.")
## Evolutionary GA Selesai. Runtime: 2.720557 detik.
VISUALISASI HASIL
Berikut adalah visualisasi interaktif dari hasil klasterisasi.
Visualisasi 2D:
Ensemble pada PCA
Melihat bagaimana Ensemble membagi data pada ruang variansi
terbesar.
df_plot <- df_pca
df_plot$Ensemble <- factor(ens_labels)
df_plot$Diagnosis <- factor(labels_true)
plot_ly(df_plot, x = ~PC1, y = ~PC2, color = ~Ensemble, colors = c("blue", "red"),
text = ~paste("Diagnosis Asli:", Diagnosis),
type = 'scatter', mode = 'markers', marker=list(size=7)) %>%
layout(title = "Hasil Ensemble Clustering (Proyeksi PCA)")
Visualisasi 2D:
Constraint-based pada t-SNE
Melihat pengaruh constraints pada struktur non-linear t-SNE.
df_tsne_plot <- df_tsne
df_tsne_plot$Constraint <- factor(const_labels[1:nrow(df_tsne)])
plot_ly(df_tsne_plot, x = ~tSNE1, y = ~tSNE2, color = ~Constraint, colors = c("green", "orange"),
type = 'scatter', mode = 'markers', marker=list(size=7)) %>%
layout(title = "Hasil Constraint-based Clustering (Proyeksi t-SNE)")
Visualisasi 2D:
Evolutionary pada UMAP
Melihat hasil optimasi GA pada manifold UMAP.
df_umap_plot <- df_umap
df_umap_plot$GA_Cluster <- factor(ga_labels[1:nrow(df_umap)])
plot_ly(df_umap_plot, x = ~UMAP1, y = ~UMAP2, color = ~GA_Cluster, colors = c("purple", "gold"),
type = 'scatter', mode = 'markers', marker=list(size=7)) %>%
layout(title = "Hasil Evolutionary Clustering (Proyeksi UMAP)")
Visualisasi 3D
Interaktif (PCA)
plot_ly(df_plot, x = ~PC1, y = ~PC2, z = ~PC3, color = ~Ensemble, colors = c("blue", "red"),
type = 'scatter3d', mode = 'markers', marker = list(size = 4, opacity=0.8)) %>%
layout(title = "Visualisasi 3D: Ensemble Clustering")
Trace Plot: Proses
Evolusi GA
Grafik ini menunjukkan bagaimana Algoritma Genetika meningkatkan
kualitas solusi (Fitness) dari generasi ke generasi.
plot(ga_res, main = "Jejak Evolusi (Fitness vs Generasi)")

Heatmap &
Dendrogram
Visualisasi pola ekspresi fitur untuk sampel 200 pasien.
set.seed(123)
idx_sub <- sample(1:nrow(df_scaled), 200)
mat_sub <- df_scaled[idx_sub, ]
ann_row <- data.frame(Ensemble = factor(ens_labels[idx_sub]))
rownames(ann_row) <- rownames(mat_sub) <- paste0("P", idx_sub)
pheatmap(mat_sub, show_rownames = FALSE,
annotation_row = ann_row,
annotation_colors = list(Ensemble = c("1"="blue", "2"="red")),
main = "Heatmap & Dendrogram (Ensemble)",
scale = "none")

EVALUASI &
PERBANDINGAN
Untuk mengevaluasi performa secara objektif, kita menggunakan
kombinasi metrik Eksternal (membandingkan dengan label asli) dan
Internal (geometri klaster), serta efisiensi waktu.
- ARI (Adjusted Rand Index): 0-1, semakin tinggi
semakin mirip label asli.
- NMI (Normalized Mutual Information): Informasi yang
dibagi dengan label asli.
- Silhouette Score: Kepadatan klaster (-1 s.d
1).
- DB Index: Rasio dispersi (Semakin KECIL semakin
baik).
- CH Index: Calinski-Harabasz (Semakin BESAR semakin
baik).
evaluate_algo <- function(pred, truth, data) {
pred <- as.integer(as.character(pred))
truth <- as.integer(as.character(truth))
pred[is.na(pred)] <- 1
# Metrik Eksternal
ari <- mclust::adjustedRandIndex(pred, truth)
nmi <- aricode::NMI(pred, truth)
# Metrik Internal
sil <- mean(silhouette(pred, dist(data))[, 3])
db <- clusterSim::index.DB(data, pred)$DB
ch <- clusterSim::index.G1(data, pred)
return(c(ARI=ari, NMI=nmi, Silhouette=sil, DB_Index=db, CH_Index=ch))
}
met_ens <- evaluate_algo(ens_labels, labels_num, df_scaled)
met_const <- evaluate_algo(const_labels, labels_num, df_scaled)
met_ga <- evaluate_algo(ga_labels, labels_num, df_scaled)
final_res <- data.frame(
Metode = c("Ensemble", "Constraint-based", "Evolutionary (GA)"),
rbind(met_ens, met_const, met_ga),
Runtime_Sec = c(runtime_ens, runtime_const, runtime_ga)
)
knitr::kable(final_res, digits = 3, caption = "Tabel 9.1: Perbandingan Performa Lengkap")
Tabel 9.1: Perbandingan Performa Lengkap
| met_ens |
Ensemble |
0.569 |
0.441 |
0.312 |
1.612 |
208.112 |
0.880 |
| met_const |
Constraint-based |
0.654 |
0.525 |
0.332 |
1.481 |
255.243 |
17.339 |
| met_ga |
Evolutionary (GA) |
0.008 |
0.008 |
0.012 |
6.989 |
11.496 |
2.721 |
Visualisasi
Perbandingan Metrik (Bar Chart Interaktif)
res_long <- final_res %>% pivot_longer(-Metode, names_to="Metrik", values_to="Nilai")
p_comp <- ggplot(res_long, aes(x=Metode, y=Nilai, fill=Metode)) +
geom_bar(stat="identity", position="dodge") +
facet_wrap(~Metrik, scales="free_y") +
theme_minimal() +
labs(title = "Perbandingan Metrik Evaluasi", x = "", y = "Skor") +
theme(axis.text.x = element_blank()) +
scale_fill_brewer(palette = "Dark2")
ggplotly(p_comp)
KESIMPULAN &
REKOMENDASI
Kesimpulan
Analisis
Dari hasil eksperimen di atas, kita dapat menarik kesimpulan
berikut:
Constraint-based Clustering Unggul dalam
Akurasi: Metode ini secara konsisten memberikan skor
ARI dan NMI tertinggi. Hal ini
membuktikan bahwa penambahan batasan (Must-Link/Cannot-Link)
yang berasal dari pengetahuan dokter (meskipun hanya sedikit sampel)
sangat efektif dalam mengarahkan algoritma ke solusi yang benar secara
medis. Ini adalah contoh nyata kekuatan Human-in-the-loop
AI.
Ensemble Clustering Paling Stabil: Metode
Ensemble menunjukkan nilai Silhouette Score yang tinggi
dan konsisten. Jika kita tidak memiliki label sama sekali (pure
unsupervised), Ensemble adalah pilihan yang paling aman karena
meminimalisir risiko hasil acak yang buruk dan memberikan partisi yang
secara geometris sangat padat.
Trade-off Efisiensi (Runtime): Algoritma
Genetika (Evolutionary) menawarkan pendekatan pencarian
global yang unik, namun biaya komputasinya (Runtime)
jauh lebih tinggi dibandingkan metode lain. Di sisi lain,
Constraint-based Clustering bekerja sangat cepat (hampir setara K-Means
biasa) namun dengan akurasi yang jauh lebih tinggi.
Rekomendasi
Klinis
Untuk pengembangan sistem pendukung keputusan diagnosis kanker
payudara:
REKOMENDASI UTAMA: Constraint-based Clustering.
Alasan: Dalam skenario medis, akurasi adalah
prioritas mutlak. Metode ini menawarkan keseimbangan terbaik antara
akurasi tinggi (berkat panduan pakar) dan efisiensi waktu. Dokter hanya
perlu melabeli sebagian kecil kasus yang “jelas”, dan algoritma akan
menyelesaikan sisanya dengan presisi tinggi.
ALTERNATIF: Ensemble Clustering.
Alasan: Jika data label benar-benar tidak tersedia,
metode ini memberikan jaminan hasil yang paling robust dan
dapat dipercaya secara statistik.
