Clustering atau Klasterisasi merupakan suatu teknik atau metode untuk mengelompokkan data. Analisis cluster merupakan seperangkat metode yang digunakan untuk mengelompokkan objek ke dalam sebuah cluster berdasarkan informasi yang ditemukan pada data. Salah satu metode clustering yang paling terkenal adalah K-Means. Metode K-means banyak digunakan karena mampu menangani dataset berukuran besar, menghasilkan kelompok yang jelas, serta mempermudah interpretasi pola antarwilayah (Everitt dkk., 2011). Dalam konteks analisis risiko, metode ini memungkinkan pengelompokan kabupaten/kota ke dalam cluster homogen berdasarkan indikator tertentu, sehingga pola variasi risiko dapat teridentifikasi secara objektif. Studi sebelumnya, seperti yang dilakukan oleh Sutanta et al. (2018) di Jawa Barat, membuktikan bahwa analisis cluster mampu mengungkap pola spasial risiko bencana dan memberikan dasar yang kuat bagi perumusan kebijakan. Pendekatan statistik ini menjadi sangat relevan mengingat Indonesia merupakan negara kepulauan yang rentan terhadap berbagai jenis bencana alam, seperti gempa bumi, banjir, tanah longsor, dan tsunami, dengan Jawa Timur sebagai salah satu provinsi yang paling terdampak (BNPB, 2020). Provinsi ini memiliki kondisi geografis yang beragam mulai dari pegunungan, dataran rendah, hingga wilayah pesisir yang secara langsung meningkatkan tingkat kerentanan terhadap berbagai bahaya. Risiko bencana sendiri didefinisikan sebagai kombinasi antara hazard, vulnerability, dan capacity suatu wilayah (UNISDR, 2015), sehingga analisis risiko pada tingkat kabupaten/kota menjadi krusial untuk mendukung perencanaan mitigasi dan pengurangan risiko yang lebih terarah. Memanfaatkan data dari Badan Nasional Penanggulangan Bencana (BNPB) dan data dari Badan Pusat Statistik (BPS), penerapan analisis cluster non-hierarki dalam penelitian ini bertujuan untuk mengidentifikasi kelompok wilayah di Jawa Timur berdasarkan tingkat risikonya. Hasil pengelompokan tersebut diharapkan dapat memberikan wawasan empiris mengenai variasi risiko antarwilayah.
Berdasarkan latar belakang yang digunakan, maka rumusan masalah dalam penelitian ini adalah sebagai berikut.
Berapa jumlah cluster optimal yang dapat menggambarkan variasi risiko bencana pada kabupaten/kota di Jawa Timur?
Bagaimana karakteristik dan perbedaan pola risiko dari setiap cluster yang terbentuk berdasarkan indikator risiko bencana pada kabupaten/kota di Jawa Timur?
Berdasarkan rumusan masalah, penelitian ini memiliki tujuan sebagai berikut.
Menentukan jumlah cluster optimal yang dapat merepresentasikan variasi tingkat risiko bencana pada kabupaten/kota di Jawa Timur.
Menganalisis karakteristik dan pola risiko dari setiap cluster yang terbentuk berdasarkan indikator-indikator risiko bencana pada kabupaten/kota di Jawa Timur.
Penelitian ini diharapkan memberikan beberapa manfaat sebagai berikut.
Memberikan kontribusi akademik dalam penerapan analisis cluster non-hierarki untuk pengelompokan wilayah berdasarkan indikator risiko bencana pada kabupaten/kota di Jawa Timur.
Menambah wawasan bagi peneliti, mahasiswa, dan masyarakat mengenai pola variasi risiko antar kabupaten/kota yang dianalisis melalui pendekatan statistik.
Batasan masalah yang digunakan dalam penelitian ini adalah sebagai berikut.
Penelitian ini menggunakan lima variabel, yaitu Indeks Risiko Banjir dan Indeks Risiko Gempabumi dari InaRISK BNPB 2024, serta data Kepadatan Penduduk, Indeks Pembangunan Manusia (IPM), dan Tingkat Partisipasi Angkatan Kerja (TPAK) dari BPS Jawa Timur 2024.
Metode yang digunakan dibatasi pada analisis cluster non-hierarki yaitu K-means tanpa membahas metode clustering lainnya.
Cluster analisis atau yang biasa dikenal segmentasi data menurut Hastie, Tishibrani, & Friedman (2017) merupakan metode dalam analisis multivariat yang bertujuan mengelompokkan objek ke dalam beberapa subset atau cluster, sehingga objek dalam satu cluster memiliki tingkat kemiripan yang lebih tinggi dibandingkan dengan objek pada cluster lain. Analisis cluster berperan penting dalam menghasilkan deskripsi statistik yang membantu mengidentifikasi apakah data memiliki subkelompok yang berbeda secara signifikan. Proses ini membutuhkan evaluasi tingkat kemiripan atau ketidaksamaan (similarity/dissimilarity) antar objek yang menjadi dasar pembentukan cluster.
K-Means merupakan salah satu algoritma clustering berbasis iteratif yang paling banyak digunakan, terutama untuk data yang seluruh variabelnya bersifat kuantitatif. Algoritma ini bekerja dengan menggunakan jarak Euclidean kuadrat sebagai ukuran ketidaksamaan (dissimilarity measure), sehingga cluster yang terbentuk didasarkan pada kedekatan geometris antar titik. K-Means bertujuan meminimalkan within-cluster scatter, yaitu total variasi setiap titik terhadap centroid cluster masing-masing. Secara matematis, kriteria objektifnya dituliskan sebagai berikut. \[ W(C) = \sum_{k=1} ^{K} \sum_{i \in C_k} \left\| x_i - \bar{x}_k \right\|^2 \] dengan $ x Ì…k$ merupakan vektor mean dari cluste_r ke- \(k\). Nilai ini menggambarkan rata-rata ketidaksamaan antar titik dalam cluster dengan pusat cluster tersebut. Proses clustering menjadi optimal ketika pengelompokan data meminimalkan total jarak kuadrat seluruh titik terhadap centroid masing-masing. K-Means memiliki sifat iterative descent, yaitu melakukan perbaikan bertahap pada nilai fungsi objektif hingga mencapai nilai minimum. Namun, hasil akhirnya dapat berupa local minimum, sehingga inisialisasi centroid awal perlu dilakukan berulang kali untuk mendapatkan solusi terbaik (Hastie, Tishibrani, & Friedman, 2017).
Algoritma K-Means diselesaikan dengan pendekatan alternating optimization, di mana dua langkah utama dilakukan secara bergantian hingga konvergen. Berdasarkan buku The Elements of Statistical Learning, langkah-langkah tersebut adalah:
Update Centroid (Minimization with respect to \(m_k\))
Dengan pengelompokan awal \(C\), centroid tiap cluster diperbarui dengan menghitung rata-rata dari seluruh titik pada cluster tersebut.
\[\bar{x}_k = \arg\min \sum_{i \in C_k} \| x_i - m \|^2\] Hasilnya adalah centroid baru yang mewakili masing-masing cluster.
Dengan centroid \({{m_1,...,m_k}}\) yang telah diperbarui, setiap titik data dialokasikan ke cluster yang memiliki centroid terdekat. \[C(i) = \arg\min\| x_i - m \|^2\]
Kedua langkah di atas diulang hingga tidak terjadi perubahan pada assignment cluster. Setiap iterasi menjamin penurunan nilai fungsi objektif, sehingga konvergensi pasti tercapai. Namun demikian, algoritma dapat berhenti pada solusi lokal, bukan solusi global. Untuk itu, disarankan melakukan inisialisasi centroid secara acak beberapa kali dan memilih hasil dengan nilai objektif minimum.
Data yang digunakan pada penelitian ini merupakan data sekunder dengan periode pengamatan tahun 2024 yang bersumber dari instansi resmi, yaitu Badan Nasional Penanggulangan Bencana (BNPB) untuk Indeks Risiko Banjir dan Gempabumi serta Badan Pusat Statistik (BPS) untuk data Kepadatan Penduduk, Indeks Pembangunan Manusia (IPM), dan Tingkat Partisipasi Angkatan Kerja (TPAK).
Variabel yang digunakan mencakup:
Variabel Risiko meliputi Indeks Risiko Banjir dan Indeks Risiko Gempabumi pada Kabupaten/Kota di Jawa Timur.
Variabel Sosial-Demografi mencakup Kepadatan Penduduk di kabupatan/kota di Jawa Timur, Indeks Pembagunan Manusia (IPM) di kabupaten/kota di Jawa Timur, dan Tingkat Partisipasi Angkatan Kerja (TPAK) di kabupaten/kota di Jawa Timur.
Penelitian ini menggunakan metode analisis cluster non-hierarki (K-Means) dengan langkah sebagai berikut.
Data diimpor dan dibersihkan dengan menghapus baris yang tidak diperlukan serta memilih variabel yang seluruhnya bersifat numerik agar siap dianalisis.
Analisis deskriptif dilakukan untuk melihat sebaran nilai setiap variabel, termasuk nilai rata-rata, standar deviasi, dan rentang data.
Variabel diuji menggunakan KMO dan untuk memastikan kelayakan analisis lebih lanjut, serta diuji multikolinearitas melalui korelasi.
Seluruh variabel distandardisasi dengan metode z-score agar memiliki skala yang setara sebelum dilakukan analisis cluster.
Jumlah _ cluster_ ditentukan menggunakan metode Elbow dan Silhouette untuk memperoleh jumlah kelompok yang paling optimal.
Analisis cluster dilakukan menggunakan algoritma K-Means hingga mencapai konvergensi, menghasilkan pembagian cluster untuk masing-masing kabupaten/kota di Jawa Timur.
Hasil pengelompokan diinterpretasikan dengan melihat rata-rata variabel pada tiap cluster untuk memahami karakteristik setiap kelompok wilayah.
library(readxl)
library(dplyr)
library(psych)
library(factoextra)
library(corrplot)
path_file <- "D:/Semester 5/ANMUL 1/DATA TUGAS 2 LAPRAK.xlsx"
laprak2 <- read_excel(path_file, skip = 1)
library(readr)
laprak2 <- type_convert(laprak2, locale = locale(decimal_mark = ","))
colSums(is.na(laprak2))
data_num <- laprak2[, 2:6]
rownames(data_num) <- laprak2[[1]]
describe(data_num)
colnames(data_num) <- c(
"Risiko_Banjir",
"Risiko_Gempa",
"Kepadatan",
"IPM",
"TPAK"
)
matriks_korelasi <- cor(data_num)
corrplot(matriks_korelasi, method = "circle", type = "upper",
tl.col = "black", tl.cex = 0.8,
title = "Plot Korelasi Antar Variabel",
mar = c(0,0,2,0))
kmo_result <- KMO(data_num)
print(kmo_result)
data_scaled <- scale(data_num)
fviz_nbclust(data_scaled, kmeans, method = "wss") +
labs(title = "Metode Elbow (WSS)")
fviz_nbclust(data_scaled, kmeans, method = "silhouette") +
labs(title = "Metode Silhouette")
set.seed(123)
k <- 2
km_res <- kmeans(data_scaled, centers = k, nstart = 25)
print(km_res$centers)
fviz_cluster(km_res, data = data_scaled,
geom = "point",
ellipse.type = "convex",
ggtheme = theme_minimal(),
main = "Visualisasi Cluster K-Means")
final_data <- data.frame(laprak2, Cluster = km_res$cluster)
print(table(final_data$Cluster))
profil_cluster <- aggregate(. ~ Cluster, data = final_data[, c(2:7)], mean)
profil_cluster[, 2:6] <- round(profil_cluster[, 2:6], 2)
print(profil_cluster)
Data yang digunakan dalam analisis ini terdiri dari 38 observasi, yang masing-masing merepresentasikan kabupaten/kota di Provinsi Jawa Timur. Variabel yang dianalisis meliputi Indeks Risiko Banjir, Indeks Risiko Gempabumi, Kepadatan Penduduk, Indeks Pembangunan Manusia (IPM), dan Tingkat Partisipasi Angkatan Kerja (TPAK).
Statistika deskriptif digunakan untuk memberikan gambaran awal mengenai karakteristik data yang terdiri dari 38 kabupaten/kota di Provinsi Jawa Timur.
| mean | sd | min | max | |
|---|---|---|---|---|
| Risiko Banjir | 19.03 | 4.95 | 5.53 | 33.60 |
| Risiko Gempa | 11.13 | 3.79 | 4.68 | 21.60 |
| Kepadatan Penduduk | 1996.00 | 2297.58 | 424.00 | 8698.00 |
| IPM | 75.41 | 4.78 | 66.72 | 84.69 |
| TPAK | 73.32 | 3.09 | 67.52 | 80.08 |
Dapat dilihat secara keseluruhan gambaran awal setiap variabel memiliki tingkat variasi yang berbeda-beda sehingga analisis lanjutan seperti korelasi atau clustering dapat dilakukan untuk memahami pola hubungan dan pengelompokan antar wilayah.
Analisis korelasi dilakukan untuk melihat hubungan antar variabel sebelum dilakukan analisis cluster. Korelasi Pearson digunakan karena seluruh variabel berskala numerik.
Berdasarkan matriks korelasi dan corrplot, terlihat bahwa sebagian besar variabel memiliki korelasi rendah hingga sedang. Korelasi tertinggi muncul antara Risiko Banjir dan Risiko Gempa (r ≈ 0,80), sedangkan Kepadatan Penduduk dan IPM juga menunjukkan hubungan yang cukup kuat. Sementara itu, TPAK cenderung berkorelasi negatif dengan variabel sosial-ekonomi lainnya. Secara keseluruhan, tidak ditemukan korelasi yang terlalu tinggi antarvariabel, sehingga seluruh variabel tetap layak digunakan dalam analisis cluster
Uji KMO digunakan untuk menilai apakah data layak dianalisis lebih lanjut menggunakan teknik berbasis korelasi, seperti analisis faktor atau analisis cluster.
| Variabel | Nilai_MSA |
|---|---|
| Risiko_Banjir | 0.427 |
| Risiko_Gempa | 0.595 |
| Kepadatan | 0.640 |
| IPM | 0.606 |
| TPAK | 0.873 |
Nilai KMO secara keseluruhan sebesar 0.62 menunjukkan bahwa data cukup memadai untuk digunakan dalam analisis cluster. Sebagian besar variabel memiliki MSA di atas 0.50, kecuali variabel Indeks Risiko Banjir (0.4) yang sedikit di bawah batas minimum. Namun, karena nilai keseluruhan memenuhi syarat, seluruh variabel masih dapat dipertahankan dalam analisis. Secara umum, struktur korelasi antarvariabel dianggap cukup untuk dilanjutkan ke tahap clustering.
Menentukan jumlah cluster yang tepat pada analisis K-Means digunakan dua metode yaitu Metode Elbow (WSS) dan Metode Silhouette. Sebelumnya, seluruh variabel telah dinormalisasi agar memiliki satuan yang sama dan tidak mendistorsi hasil pengelompokan.
Berdasarkan kedua metode, Metode Elbow cenderung merekomendasikan 3 cluster, sementara Metode Silhouette menunjukkan kualitas pemisahan terbaik pada 2 cluster. Karena nilai silhouette memberikan ukuran langsung mengenai seberapa baik objek berada dalam cluster yang tepat, maka jumlah cluster yang paling optimal adalah k = 2, yang menunjukkan bahwa data kabupaten/kota di Jawa Timur secara alami terbagi menjadi dua kelompok utama berdasarkan variabel risiko bencana dan karakteristik demografi.
Berdasarkan hasil analisis K-Means, didapatkan bahwa
Cluster 1 (Daerah Perkotaan dan Risiko Tinggi) dicirikan oleh kepadatan penduduk yang sangat tinggi dan IPM yang tinggi. Namun, wilayah ini juga memiliki kerentanan tinggi terhadap bencana (banjir dan gempa) serta Tingkat Partisipasi Angkatan Kerja (TPAK) yang cenderung lebih rendah dibandingkan rata-rata.
Cluster 2 (Daerah Non-Urban dan Risiko Lebih Rendah) dicirikan oleh kepadatan penduduk yang rendah dan risiko bencana yang relatif lebih rendah (di bawah rata-rata). IPM di wilayah ini cenderung rendah, namun memiliki partisipasi angkatan kerja yang positif.
| Cluster | Anggota |
|---|---|
| 1 | Kabupaten Sidoarjo, Kota Kediri, Kota Blitar, Kota Malang, Kota Probolinggo, Kota Pasuruan, Kota Mojokerto, Kota Madiun, Kota Surabaya |
| 2 | Kabupaten Pacitan, Kabupaten Ponorogo, Kabupaten Trenggalek, Kabupaten Tulungagung, Kabupaten Blitar, Kabupaten Kediri, Kabupaten Malang, Kabupaten Lumajang, Kabupaten Jember, Kabupaten Banyuwangi, Kabupaten Bondowoso, Kabupaten Situbondo, Kabupaten Probolinggo, Kabupaten Pasuruan, Kabupaten Mojokerto, Kabupaten Jombang, Kabupaten Nganjuk, Kabupaten Madiun, Kabupaten Magetan, Kabupaten Ngawi, Kabupaten Bojonegoro, Kabupaten Tuban, Kabupaten Lamongan, Kabupaten Gresik, Kabupaten Bangkalan, Kabupaten Sampang, Kabupaten Pamekasan, Kabupaten Sumenep, Kota Batu |
Visualisasi hasil K-Means Clustering menunjukkan pengelompokan Kabupaten/Kota di Jawa Timur berdasarkan risiko bencana berhasil terbagi menjadi dua cluster yang terpisah secara jelas dan signifikan. Perbedaan yang mencolok ini mengindikasikan bahwa terdapat dua profil risiko bencana yang sangat berbeda di wilayah Jawa Timur.
Profil cluster digunakan untuk melihat karakteristik rata-rata dari setiap cluster berdasarkan variabel yang digunakan dalam analisis K-Means. Nilai pada tabel berikut merupakan nilai rata-rata asli (denormalisasi) dari tiap variabel untuk masing-masing cluster.
| Cluster | Risiko Banjir | Risiko Gempabumi | Kepadatan Penduduk | Indeks Pembangunan Manusia (IPM) | Tingkat Partisipasi Angkatan Kerja (TPAK) |
|---|---|---|---|---|---|
| 1 | 20.81 | 13.53 | 5691.67 | 82.04 | 70.12 |
| 2 | 18.39 | 10.35 | 794.41 | 73.22 | 74.77 |
Berdasarkan hasil analisis cluster menggunakan metode K-Means, dapat disimpulkan bahwa wilayah di Jawa Timur menunjukkan pola pengelompokan yang cukup jelas. Cluster pertama terutama dihuni oleh kota-kota besar yang memiliki kepadatan penduduk sangat tinggi, tingkat pembangunan yang lebih maju, serta risiko bencana yang relatif lebih tinggi dibandingkan daerah lainnya. Kondisi ini menggambarkan karakter wilayah urban yang dinamis, namun sekaligus menghadapi tantangan kompleks seperti kerentanan banjir, gempa, dan tekanan sosial ekonomi yang lebih besar. Sementara itu, cluster kedua beranggotakan sebagian besar kabupaten yang memiliki kepadatan penduduk lebih rendah, risiko bencana yang relatif moderat, dan tingkat pembangunan yang berada pada kategori menengah. Wilayah dalam cluster ini cenderung memiliki struktur sosial ekonomi yang lebih stabil, dengan tingkat partisipasi angkatan kerja yang sedikit lebih tinggi dibandingkan cluster pertama. Secara keseluruhan, hasil analisis menunjukkan bahwa wilayah Jawa Timur memang memiliki pola karakteristik yang berbeda satu sama lain. Clustering membantu memperlihatkan perbedaan tersebut secara lebih jelas, mulai dari tingkat risiko bencana, kepadatan penduduk, hingga aspek pembangunan dan ketenagakerjaan. Dengan memahami pola ini, studi dapat memberikan gambaran yang lebih terstruktur mengenai kondisi setiap kelompok wilayah.
Badan Nasional Penanggulangan Bencana (BNPB). (2020). Indeks Risiko
Bencana Indonesia Tahun 2020. Jakarta: Badan Nasional Penanggulangan
Bencana.
Badan Pusat Statistik Provinsi Jawa Timur. (24 Februari 2025).
Penduduk, Laju Pertumbuhan Penduduk, Distribusi Persentase Penduduk
Kepadatan Penduduk, Rasio Jenis Kelamin Penduduk Menurut Kabupaten/Kota
di Provinsi Jawa Timur, 2024. Diakses pada 19 November 2025, dari https://jatim.bps.go.id/id/statistics-table/3/V1ZSbFRUY3lTbFpEYTNsVWNGcDZjek53YkhsNFFUMDkjMw==/penduduk--laju-pertumbuhan-penduduk--distribusi-persentase-penduduk--kepadatan-penduduk--rasio-jenis-kelamin-penduduk-menurut-kabupaten-kota-di-provinsi-jawa-timur--2024.html?year=2024.
Badan Pusat Statistik Provinsi Jawa Timur. (27 Mei 2025). Indeks
Pembangunan Manusia Provinsi Jawa Timur 2024. Diakses pada 19 November
2025, dari https://jatim.bps.go.id/id/publication/2025/05/27/47fde052cb353c601c21c209/indeks-pembangunan-manusia-provinsi-jawa-timur-2024.html.
Badan Pusat Statistik Provinsi Jawa Timur. (13 November 2025).
Tingkat Partisipasi Angkatan Kerja (TPAK) Menurut Kabupaten/Kota, 2025.
Diakses pada 19 November 2025, dari https://jatim.bps.go.id/id/statistics-table/2/Mjc3IzI=/tingkat-partisipasi-angkatan-kerja-tpak-menurut-kabupaten-kota.html.
Everitt, B., Landau, S., Leese, M., & Stahl, D. (2011). Cluster
Analysis (5th Edition).
Hastie, T., Tishibrani, R., & Friedman, J. (2017). The Elements
of Statistical Learning. California: Springer.
United Nations International Strategy for Disaster Reduction
(UNISDR). (2015). Sendai Framework for Disaster Risk Reduction
2015-2030. Geneva: UNISDR.