“Klasterisasi Tingkat Kerentanan Sosial dan Pembangunan Provinsi di Indonesia”

1. Pendahuluan

1.1. Latar Belakang

Ketimpangan pembangunan antarprovinsi di Indonesia masih menjadi isu penting dalam perencanaan pembangunan nasional. Perbedaan kondisi sosial, ekonomi, serta tingkat pembangunan manusia membuat setiap provinsi memiliki tingkat kerentanan sosial yang berbeda-beda. Kerentanan sosial tidak hanya dipengaruhi oleh aspek ekonomi, tetapi juga oleh dinamika sosial masyarakat dan kapasitas pembangunan wilayah. Oleh karena itu, analisis yang mampu menggabungkan beberapa indikator sekaligus diperlukan untuk memahami pola kerentanan tersebut secara lebih komprehensif.

Dalam penelitian ini, digunakan empat indikator utama untuk menggambarkan kondisi sosial dan pembangunan provinsi, yaitu persentase penduduk miskin, jumlah perceraian, jumlah kota, dan Indeks Pembangunan Manusia (IPM). Persentase penduduk miskin menggambarkan tingkat kesejahteraan ekonomi, sementara jumlah perceraian menjadi salah satu indikator stabilitas sosial yang turut menggambarkan tekanan sosial dalam masyarakat. Jumlah kota menunjukkan tingkat urbanisasi dan potensi akses terhadap layanan publik, sedangkan IPM menjadi ukuran penting perkembangan kualitas hidup suatu wilayah. Keempat variabel ini dipilih karena bersama-sama dapat memberikan gambaran multidimensional mengenai kerentanan sosial dan tingkat pembangunan di setiap provinsi.

Melihat karakteristik data yang multidimensi, analisis deskriptif sederhana tidak cukup untuk mengidentifikasi pola yang lebih kompleks. Oleh sebab itu, dibutuhkan pendekatan analisis multivariat yang mampu mengelompokkan provinsi berdasarkan kemiripan karakteristiknya. Analisis klaster merupakan salah satu teknik eksploratif yang paling banyak digunakan untuk tujuan tersebut karena dapat mengelompokkan objek ke dalam kelompok yang homogen di dalam klaster dan heterogen antar-klaster.

Dalam penelitian ini dipilih metode K-Means, yaitu salah satu metode klaster non-hierarki yang bekerja dengan mengelompokkan objek berdasarkan kedekatan jarak terhadap centroid. Metode ini dipilih karena seluruh variabel yang digunakan bersifat numerik, sehingga jarak Euclidean dapat dihitung secara optimal. Selain itu, K-Means menghasilkan pusat klaster yang jelas, mudah diinterpretasikan, dan efisien digunakan untuk jumlah data sedang seperti data provinsi Indonesia. Pemilihan jumlah klaster yang optimal juga dapat dilakukan secara objektif menggunakan metode seperti Elbow dan Silhouette, sehingga hasil pengelompokan lebih akurat dan dapat dipertanggungjawabkan.

Dengan mempertimbangkan pentingnya pemetaan kerentanan sosial serta keberagaman indikator yang digunakan, analisis klaster K-Means menjadi metode yang sesuai untuk mengidentifikasi kelompok provinsi yang memiliki kondisi kerentanan sosial dan tingkat pembangunan yang serupa. Hasil pengelompokan diharapkan dapat memberikan gambaran yang lebih jelas mengenai pola persebaran kerentanan sosial di Indonesia sekaligus menjadi masukan dalam perumusan strategi pembangunan yang lebih tepat sasaran.

1.2. Cuplikan data yang digunakan

Cuplikan data enam provinsi pertama adalah sebagai berikut:

Provinsi	Persentase Penduduk Miskin	Jumlah Perceraian	Jumlah Kota	IPM
Aceh	15.43	4171	5	71.99
Sumatera Utara	9.14	12809	8	71.77
Sumatera Barat	6.56	5291	7	72.38
Riau	7.04	6252	2	72.71
Jambi	7.97	3883	2	71.29
Sumatera Selatan	12.98	6402	4	70.01

1.3. Relevansi variabel dalam analisis cluster

Pemilihan variabel sangat menentukan kualitas hasil pengelompokan. Variabel dalam penelitian ini memiliki keterkaitan langsung dengan kondisi kerentanan sosial:

Persentase Penduduk Miskin
Mewakili tingkat kesejahteraan ekonomi. Provinsi dengan kemiskinan tinggi umumnya memiliki tingkat kerentanan sosial lebih besar, termasuk keterbatasan dalam akses layanan dasar.
Jumlah Perceraian
Menjadi indikator stabilitas sosial. Tingginya jumlah perceraian dapat mencerminkan masalah sosial, tekanan ekonomi, maupun ketidakseimbangan dalam relasi keluarga.
Jumlah Kota
Menggambarkan tingkat urbanisasi dan kapasitas infrastruktur wilayah. Provinsi dengan jumlah kota lebih banyak cenderung memiliki akses ekonomi dan layanan publik lebih baik.
Indeks Pembangunan Manusia (IPM)
Indikator komposit yang mengukur kualitas pendidikan, kesehatan, dan standar hidup, sehingga menggambarkan capaian pembangunan manusia secara menyeluruh.

Keempat variabel tersebut secara simultan mencerminkan profil kerentanan sosial dan pembangunan interprovinsi, sehingga sangat sesuai digunakan dalam teknik pengelompokan berbasis multivariat.

1.4. Latar belakang metode

Analisis clusster merupakan salah satu metode eksploratori dalam statistik multivariat yang bertujuan mengelompokkan objek ke dalam beberapa kelompok homogen berdasarkan kemiripan karakteristiknya. Tidak seperti metode inferensial yang menekankan estimasi atau pengujian hipotesis, analisis cluster lebih menekankan identifikasi pola struktur data tanpa adanya variabel dependen.

Dalam konteks penelitian ini, analisis cluster digunakan untuk memperoleh pengelompokan provinsi berdasarkan empat indikator sosial-ekonomi. Metode ini dapat menyingkap pola-pola laten dalam data, misalnya kelompok provinsi yang memiliki tingkat kerentanan sosial tinggi atau kelompok dengan tingkat pembangunan manusia lebih maju.

1.5. Alasan Memilih Metode K-Means

Seluruh variabel bersifat numerik, yaitu persentase penduduk miskin, jumlah perceraian, jumlah kota, dan IPM, sehingga jarak antarprovinsi dapat dihitung secara tepat menggunakan Euclidean distance yang merupakan dasar algoritma K-Means.
Tujuan penelitian adalah mengelompokkan provinsi berdasarkan kemiripan karakteristik sosial dan pembangunan, dan K-Means merupakan metode non-hierarki yang dirancang khusus untuk menghasilkan klaster homogen berdasarkan kedekatan nilai variabel antarobjek.
Tingkat variasi antarprovinsi cukup tinggi, sehingga diperlukan metode yang mampu memaksimalkan perbedaan antar-klaster. K-Means melakukan hal ini dengan meminimalkan Within-Cluster Sum of Squares (WCSS) sehingga provinsi yang sangat berbeda akan berada pada klaster berbeda.
K-Means menghasilkan centroid yang mudah diinterpretasikan, sehingga karakteristik setiap klaster dapat digambarkan dengan jelas, misalnya klaster dengan kemiskinan tinggi, IPM rendah, atau jumlah kota sedikit. Ini memudahkan analisis dalam konteks pemetaan kerentanan sosial.
Ukuran data relatif kecil dan variabel tidak banyak, sehingga K-Means menjadi metode yang efisien, cepat, dan stabil untuk digunakan pada dataset 34 provinsi. Selain itu, jumlah klaster optimal dapat ditentukan secara objektif melalui metode Elbow dan Silhouette.

1.6. Tinjauan Pustaka

Metode K-Means merupakan salah satu teknik klaster non-hierarki yang paling banyak digunakan dalam analisis multivariat. Metode ini pertama kali diperkenalkan oleh MacQueen (1967) dan dirancang untuk mengelompokkan objek ke dalam k klaster yang ditentukan sebelumnya. Konsep dasar K-Means adalah meminimalkan Within-Cluster Sum of Squares (WCSS) atau jumlah kuadrat jarak antara setiap objek dan centroid klasternya. Dengan demikian, klaster yang dihasilkan bersifat kompak (homogen dalam klaster) dan terpisah dengan baik (heterogen antar-klaster).

Secara matematis, K-Means berusaha mencari pembagian klaster yang meminimalkan fungsi objektif berikut:

di mana Ci adalah himpunan objek dalam klaster ke-i dan μi adalah centroid klaster tersebut. Jarak yang digunakan umumnya adalah Euclidean Distance, sehingga metode ini bekerja optimal ketika seluruh variabel bersifat numerik dan telah distandardisasi.

Proses algoritmik K-Means terdiri atas beberapa tahap iteratif:

menginisiasi pusat klaster secara acak,
mengalokasikan setiap objek ke klaster berdasarkan jarak terdekat,
menghitung ulang centroid, dan
mengulang proses hingga tidak terjadi perubahan signifikan atau algoritma mencapai konvergensi.

Karena sifatnya yang iteratif, K-Means memiliki kompleksitas komputasi yang relatif rendah dan sangat efisien digunakan pada dataset berukuran kecil hingga menengah. Namun, metode ini sensitif terhadap skala variabel, sehingga proses standardisasi perlu dilakukan untuk memastikan setiap variabel memiliki kontribusi yang seimbang dalam perhitungan jarak.

Dalam literatur statistik, K-Means dikenal sebagai metode yang baik untuk menemukan struktur alami dalam data yang memang memiliki kecenderungan membentuk kelompok. Pemilihan jumlah klaster dapat ditentukan secara objektif menggunakan beberapa kriteria seperti Elbow Method yang mengevaluasi tingkat penurunan WCSS, serta Silhouette Coefficient yang menilai konsistensi internal klaster. Penggunaan kedua metode ini penting untuk menghindari pemilihan jumlah klaster yang bersifat subjektif.

Dalam penelitian sosial-ekonomi, K-Means sering digunakan untuk pemetaan wilayah, pengelompokan tingkat pembangunan, dan identifikasi kelompok masyarakat berdasarkan karakteristik multivariat. Hal ini disebabkan karena centroid yang dihasilkan oleh K-Means mampu menggambarkan profil rata-rata suatu klaster secara jelas. Dengan demikian, peneliti dapat menilai perbedaan karakteristik tiap klaster seperti tingkat kemiskinan, urbanisasi, dan kualitas hidup, sehingga K-Means menjadi alat analisis yang relevan untuk memahami kerentanan sosial dan ketimpangan pembangunan antarprovinsi.

1.7. Tujuan Penelitian

Tujuan penelitian ini adalah:

Melakukan pengelompokan provinsi-provinsi di Indonesia berdasarkan indikator kerentanan sosial dan tingkat pembangunan menggunakan algoritma K-Means.
Mendeskripsikan karakteristik setiap klaster melalui nilai centroid dan distribusi variabel penyusunnya.
Mengidentifikasi provinsi yang termasuk dalam kategori kerentanan sosial tinggi, sedang, atau rendah berdasarkan hasil klaster.
Memberikan gambaran komprehensif mengenai pola pembangunan dan kerentanan antarprovinsi sebagai dasar analisis kebijakan.

2. Source Code dan Penjelasannya

Import data dan pemeriksaan awal

library(dplyr)

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

library(ggplot2)
library(cluster)
library(factoextra)

## Warning: package 'factoextra' was built under R version 4.4.3

## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa

library(tidyr)
library(readxl)

## Warning: package 'readxl' was built under R version 4.4.3

# baca file (sesuaikan path jika perlu)
data <- read_excel("C:/Users/ASUS/Downloads/DATACLUSTER.xlsx")

# lihat struktur dan ringkasan
glimpse(data)

## Rows: 34
## Columns: 5
## $ PROVINSI         <chr> "ACEH", "SUMATERA UTARA", "SUMATERA BARAT", "RIAU", "…
## $ PERS.PEND.MISKIN <dbl> 15.43, 9.14, 6.56, 7.04, 7.97, 12.98, 15.30, 12.76, 4…
## $ JML.CERAI        <dbl> 4171, 12809, 5291, 6252, 3883, 6402, 3104, 11227, 200…
## $ JML.KOTA         <dbl> 5, 8, 7, 2, 2, 4, 1, 2, 1, 2, 5, 9, 6, 1, 9, 4, 1, 2,…
## $ IPM              <dbl> 71.99, 71.77, 72.38, 72.71, 71.29, 70.01, 71.40, 69.6…

summary(data)

##    PROVINSI         PERS.PEND.MISKIN   JML.CERAI        JML.KOTA    
##  Length:34          Min.   : 4.450   Min.   :    0   Min.   :0.000  
##  Class :character   1st Qu.: 6.723   1st Qu.: 1336   1st Qu.:1.000  
##  Mode  :character   Median : 9.065   Median : 3646   Median :2.000  
##                     Mean   :10.806   Mean   : 8579   Mean   :2.882  
##                     3rd Qu.:13.040   3rd Qu.: 6860   3rd Qu.:4.000  
##                     Max.   :26.800   Max.   :65755   Max.   :9.000  
##       IPM       
##  Min.   :60.44  
##  1st Qu.:69.50  
##  Median :71.42  
##  Mean   :71.08  
##  3rd Qu.:72.31  
##  Max.   :80.77

# cek missing dan duplikasi
sum(is.na(data))

## [1] 0

data %>% filter(if_any(everything(), ~ is.na(.)))  # baris yang mengandung NA

any(duplicated(data$PROVINSI))

## [1] FALSE

Penjelasan:

dplyr → untuk manipulasi dan transformasi data, seperti memilih kolom (select), memfilter baris (filter), membuat kolom baru (mutate), dan menghitung ringkasan statistik (summarise).
ggplot2 → untuk membuat berbagai visualisasi data (scatter, bar, line, boxplot) dengan sistem grammar of graphics yang fleksibel.
cluster → menyediakan metode clustering seperti k-means, hierarchical, dan PAM untuk mengelompokkan data berdasarkan kemiripan.
factoextra → memudahkan visualisasi hasil clustering dan analisis multivariat, termasuk menentukan jumlah cluster optimal (Elbow, Silhouette).
tidyr → untuk merapikan data agar “tidy”, misal mengubah data panjang ↔︎ lebar (pivot_longer, pivot_wider) atau memisahkan/ menggabungkan kolom (separate, unite).
readxl → membaca file Excel (.xls/.xlsx) langsung ke R tanpa perlu konversi ke CSV.
glimpse() dan summary() memberi gambaran tipe variabel, rentang nilai, median, dll. Ini penting untuk mendeteksi nilai ekstrem atau kesalahan input (typo).
sum(is.na()) dan filter menunjukkan apakah ada data hilang. Jika ada NA, jelaskan strategi: imputasi (mean/median) hanya jika sedikit dan masuk akal, atau hapus baris jika sedikit dan tidak krusial.
duplicated(PROVINSI) memastikan tidak ada provinsi tercatat dua kali (data seharusnya unik per provinsi).

Pilih Variabel dan inspeksi distribusi atau outlier

# pilih variabel numerik yang dipakai (sesuai file Anda)
vars <- c("PERS.PEND.MISKIN", "JML.CERAI", "JML.KOTA", "IPM")
data_clust <- data %>% select(PROVINSI, all_of(vars))

# ringkasan per variabel
data_clust %>% summarise(across(all_of(vars),
                               list(mean = ~mean(. , na.rm=TRUE),
                                    sd = ~sd(. , na.rm=TRUE),
                                    min = ~min(. , na.rm=TRUE),
                                    max = ~max(. , na.rm=TRUE))))

# pemeriksaan outlier sederhana: boxplot
par(mfrow=c(2,2))
for (v in vars) {
  boxplot(data_clust[[v]], main = v, horizontal = TRUE)
}

par(mfrow=c(1,1))

Penjelasan:

Menampilkan ringkasan statistik membantu memahami skala tiap variabel (mis. JML.CERAI mungkin jauh lebih besar nilainya dibanding IPM), yang berpengaruh pada jarak Euclidean.
Boxplot membantu mendeteksi outlier. Jika outlier nyata (bukan kesalahan entri), harus memutuskan apakah akan mem-transform (log) atau tetap pakai dengan standardisasi.

Transformasi data

# contoh: jika JML.CERAI sangat skewed, lakukan log-transform (tambahan 1 untuk menghindari log(0))
data_clust <- data_clust %>%
  mutate(JML.CERAI_log = log(JML.CERAI + 1))

# jika transform, update vars untuk clustering
vars2 <- c("PERS.PEND.MISKIN", "JML.CERAI_log", "JML.KOTA", "IPM")

Penjelasan:

Transformasi mengurangi pengaruh nilai ekstrem dan membuat variabel lebih mendekati normal. K-Means bukan metode probabilistik yang memerlukan normalitas, tetapi transformasi kadang memperbaiki hasil clustering karena jarak tidak terlalu didominasi oleh variabel skewed.

Standardisasi (membuat skala seimbang)

# gunakan vars2 jika pakai transform, jika tidak pakai vars
to_scale <- if(exists("vars2")) vars2 else vars

data_for_scaling <- data_clust %>% select(all_of(to_scale)) 
data_scaled <- scale(data_for_scaling)    # memberi attr "scaled:center" dan "scaled:scale"

# simpan mean & sd untuk menginterpretasikan centroid kembali ke skala asli
scaling_params <- list(center = attr(data_scaled, "scaled:center"),
                       scale  = attr(data_scaled, "scaled:scale"))

Penjelasan:

scale() mengubah setiap variabel menjadi z-score: z=(x−μ)/σ. Ini mencegah variabel dengan unit besar mendominasi perhitungan jarak Euclidean.

Menentukan rentang k dan evaluasi: Elbow (WSS) dan Silhouette

library(purrr)
# fungsi untuk WSS
wss <- function(k) {
  kmeans(data_scaled, centers = k, nstart = 25)$tot.withinss
}

k.values <- 1:8
wss_values <- map_dbl(k.values, wss)

# plot elbow
plot(k.values, wss_values, type="b", pch=19, frame=FALSE,
     xlab="Jumlah klaster K",
     ylab="Total within-cluster sum of squares (WSS)")

# Silhouette scores for 2..8
sil_scores <- sapply(2:8, function(k) {
  km <- kmeans(data_scaled, centers=k, nstart=25)
  mean(silhouette(km$cluster, dist(data_scaled))[,3])
})

plot(2:8, sil_scores, type="b", pch=19, frame=FALSE,
     xlab="Jumlah klaster K", ylab="Rata-rata Silhouette")

Penjelasan:

purrr → library untuk pemrograman fungsional di R, mempermudah operasi berulang (iterasi) pada list atau vector tanpa menggunakan loop for tradisional.
Elbow: cari titik dimana penurunan WSS mulai melambat (titik tekukan). Titik itu menunjukkan trade-off antara model parsimonious dan akurasi pengelompokan.
Silhouette: mengukur koherensi klaster (nilai dari -1 sampai 1). Nilai mendekati 1 berarti objek cocok di klasternya; negatif berarti salah cluster. Silhouette membantu memilih k yang menghasilkan cluster paling konsisten.
Berdasarkan metode Silhouette dan Elbow, jumlah klaster optimal adalah 5 cluster. Nilai silhouette pada K=5 menunjukkan kualitas cluster yang baik dan grafik Elbow memperlihatkan pola siku pada K=4 hingga K=5. Oleh karena itu, K=5 dipilih sebagai jumlah cluster terbaik karena menghasilkan keseimbangan antara kualitas pengelompokan dan kompleksitas model.

K-Means final

set.seed(123)  # reproducible result
k_opt <- 5    
kmeans_final <- kmeans(data_scaled, centers = k_opt, nstart = 50, iter.max = 100)

# ringkasan hasil
kmeans_final$size

## [1]  4  3  4  6 17

kmeans_final$tot.withinss

## [1] 35.15421

kmeans_final$centers

##   PERS.PEND.MISKIN JML.CERAI_log    JML.KOTA        IPM
## 1      -0.63423106    -2.1950473 -0.77330707  0.2246654
## 2      -0.51030086     0.5580041  0.04833169  2.0278556
## 3       2.05420772    -0.7432986 -0.67060222 -1.5449939
## 4      -0.06076519     0.8333747  1.82854901  0.2274418
## 5      -0.22261252     0.2987719 -0.31415600 -0.1274649

Penjelasan:

nstart=50 menjalankan inisialisasi centroid acak 50 kali dan memilih solusi terbaik (mengurangi risiko local minima).
iter.max=100 memastikan konvergensi jika diperlukan.
kmeans_final$size menunjukkan jumlah anggota tiap cluster; laporkan agar terlihat cluster tidak terlalu timpang.
tot.withinss dan betweenss/totss menilai kualitas pemisahan; laporkan persentase variasi antar-cluster (kmeans_final$betweenss / kmeans_final$totss).

Interpretasi centroid (kembalikan ke skala asli)

# centroid di skala asli: center_std * sd + mean
centroids_std <- kmeans_final$centers
centroids_orig <- sweep(centroids_std, 2, scaling_params$scale, FUN = "*")
centroids_orig <- sweep(centroids_orig, 2, scaling_params$center, FUN = "+")
centroids_df <- as.data.frame(centroids_orig)
rownames(centroids_df) <- paste0("Cluster_", 1:nrow(centroids_df))
centroids_df

Penjelasan:

Centroid yang keluar dari kmeans adalah pada ruang ter-standarisasi; agar bermakna untuk kebijakan, balikkan ke unit asli.

Tambah label cluster ke dataset dan ringkasan statistik per cluster

data_with_clust <- data_clust %>%
  mutate(Cluster = kmeans_final$cluster) %>%
  relocate(PROVINSI, Cluster)

# ringkasan mean per klaster (skala asli)
data_with_clust %>%
  group_by(Cluster) %>%
  summarise(across(all_of(if(exists("vars2")) vars2 else vars),
                   list(mean = ~mean(. , na.rm=TRUE),
                        sd   = ~sd(. , na.rm=TRUE),
                        n    = ~n())))

# jika transformasi digunakan, berikan catatan bahwa JML.CERAI_mean adalah log-scale.

Penjelasan:

Tabel ringkasan per cluster wajib menjadi dasar pembahasan. Tabel ringkasan per cluster digunakan sebagai dasar pembahasan karena nilai rata rata tiap variabel pada setiap cluster menunjukkan karakteristik cluster secara empiris. Tanpa tabel tersebut, interpretasi cluster tidak dapat dilakukan secara ilmiah karena tidak ada dasar kuantitatif dalam membedakan antar cluster. Selain mean, terdapat laporan sd dan jumlah obs per cluster.

Visualisasi hasil

# 2D PCA plot + cluster (untuk melihat struktur multidimensi secara sederhana)
pca_res <- prcomp(data_scaled, scale = FALSE)  # already scaled
fviz_pca_ind(pca_res, geom = "point",
             habillage = kmeans_final$cluster,
             addEllipses = TRUE, ellipse.level = 0.68,
             palette = "jco", legend.title = "Cluster")

## Too few points to calculate an ellipse

# visualisasi cluster original variables (centroid radar / heatmap)
library(reshape2)

## Warning: package 'reshape2' was built under R version 4.4.3

## 
## Attaching package: 'reshape2'
## 
## The following object is masked from 'package:tidyr':
## 
##     smiths

centroids_long <- centroids_df %>%
  mutate(Cluster = rownames(.)) %>%
  pivot_longer(cols = -Cluster, names_to = "Variable", values_to = "Value")

ggplot(centroids_long, aes(x = Variable, y = Value, group = Cluster)) +
  geom_line(aes(color = Cluster)) + geom_point(aes(color = Cluster)) +
  labs(title = "Profil Centroid per Klaster (Skala Asli)")

# boxplot per variabel per cluster
for (v in (if(exists("vars2")) vars2 else vars)) {
  ggplot(data_with_clust, aes(x = factor(Cluster), y = .data[[v]])) +
    geom_boxplot() +
    labs(title = paste("Distribusi", v, "per Cluster"), x = "Cluster") -> p
  print(p)
}

Penjelasan:

reshape2: Memudahkan transformasi data untuk analisis statistik atau pembuatan grafik, terutama saat bekerja dengan banyak variabel dan pengelompokan data.
PCA plot memproyeksikan data multidimensi ke 2 komponen utama agar kita bisa memvisualkan pemisahan klaster.
Profil centroid (line plot/ radar) membantu melihat perbedaan relatif antar-klaster.
Boxplot per variabel menunjukkan variasi dan overlap antar-klaster — penting untuk kualitas interpretasi.

Evaluasi kualitas cluster dan kestabilan

# Silhouette per objek
sil <- silhouette(kmeans_final$cluster, dist(data_scaled))
mean(sil[, 3])   # rata-rata silhouette

## [1] 0.3845354

# silhouette plot
fviz_silhouette(sil)

##   cluster size ave.sil.width
## 1       1    4          0.41
## 2       2    3          0.23
## 3       3    4          0.26
## 4       4    6          0.46
## 5       5   17          0.41

# uji kestabilan: run kmeans beberapa kali dan bandingkan labels (ARI) — perlu package mclust
library(mclust)

## Warning: package 'mclust' was built under R version 4.4.3

## Package 'mclust' version 6.1.2
## Type 'citation("mclust")' for citing this R package in publications.

## 
## Attaching package: 'mclust'

## The following object is masked from 'package:purrr':
## 
##     map

## The following object is masked from 'package:dplyr':
## 
##     count

kmeans_rep <- replicate(20, kmeans(data_scaled, centers = k_opt, nstart = 10)$cluster)
# hitung ARI (adjusted rand index) antara run pertama dan yang lain
ari_scores <- sapply(2:ncol(kmeans_rep), function(i) adjustedRandIndex(kmeans_rep[,1], kmeans_rep[,i]))
summary(ari_scores)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##       1       1       1       1       1       1

Penjelasan:

mclust: memberikan hasil clustering yang lebih statistik formal dibanding k-means biasa, sekaligus menyediakan evaluasi kualitas cluster dan probabilitas keanggotaan tiap data dalam cluster.

mean(sil) menilai koherensi keseluruhan klaster.

Silhouette plot membantu melihat apakah ada objek yang “dipaksakan” masuk klaster yang salah (nilai negatif).

Kestabilan: karena K-Means dapat berfluktuasi tergantung inisialisasi, replikasi dan perhitungan ARI membantu mengecek apakah klaster konsisten. Nilai ARI mendekati 1 → sangat stabil.

3. Hasil dan Pembahasan

3.1. Tampilkan hasil analisis

Grafik Elbow Method

Interpretasi statistis

WSS (Within-Cluster Sum of Squares) mengukur seberapa kompak anggota klaster.
Terlihat penurunan WSS sangat tajam dari K=1 → K=2, lalu penurunan mulai melambat pada K=3–5.
Pada K=5, grafik mulai memasuki fase diminishing returns (penurunan kecil).

Kesimpulan ilmiah

K=5 merupakan titik elbow, yaitu jumlah klaster yang cukup memadai untuk menangkap struktur data.
Memilih lebih dari 5 klaster tidak memberikan peningkatan kualitas pemisahan yang signifikan.

Grafik Silhouette

Interpretasi statistis

Nilai silhouette mengukur seberapa baik objek terletak dalam klasternya dibandingkan dengan klaster lain.
Nilai optimum terlihat pada:

K = 5 (≈ 0.38) → nilai tertinggi

K=6 dan K=7 hanya memberikan sedikit kenaikan atau bahkan turun.

Kesimpulan ilmiah

K = 5 adalah jumlah klaster terbaik secara validasi internal, karena nilai silhouette maksimum terdapat pada K=5. Ini memperkuat hasil dari metode Elbow.

Output K-Means Final (K = 5)

a. Ukuran Cluster

Interpretasi:

Cluster 5 paling besar (17 daerah).
Cluster 2 paling kecil (3 daerah).

Ukuran klaster tidak harus sama, ini mencerminkan heterogenitas sebenarnya pada data.

b. Total Within-Cluster Sum of Squares

Interpretasi:

Semakin kecil nilai ini, semakin kompak klaster-stnya.
Pada K=5, nilai ini sudah relatif rendah dibandingkan K kecil → klaster cukup kompak.

c. Centroid dalam Skala Standar

Centroid menggambarkan nilai rata-rata setiap variabel di klaster, dalam skala standardized (z-score).

Contoh:

Cluster 3 memiliki nilai IPM = –1.54, artinya IPM di klaster tersebut jauh di bawah rata-rata populasi.
Cluster 2 memiliki nilai IPM = +2.03, artinya daerah pada klaster 2 punya IPM jauh di atas rata-rata.
Ini berguna untuk melihat pola awal sebelum dikembalikan ke skala asli.

Centroid dalam Skala Asli (Tabel Interpretasi)

Interpretasi ilmiah tiap klaster

a. Cluster 1 – Daerah dengan kemiskinan rendah & perceraian sangat rendah

Kemiskinan rendah (7.37)
Perceraian nol
Kota hanya 1
IPM cukup baik (71.96)

Profil: daerah relatif sejahtera, keluarga relatif stabil, daerah semi-perkotaan.

b. Cluster 2 – Daerah maju berbasis kota besar

Kemiskinan rendah (8.04)
Perceraian tinggi (8.94)
Jumlah kota tinggi (3)
IPM sangat tinggi (78.99)

Profil: daerah maju/urban, IPM tinggi, tetapi tekanan sosial keluarga lebih tinggi sehingga perceraian tinggi.

c. Cluster 3 – Daerah sangat miskin dengan kualitas SDM rendah

Kemiskinan sangat tinggi (21.99)
Perceraian moderat (4.72)
Kota sangat sedikit (1.25)
IPM rendah (65.05)

Profil: daerah tertinggal, minim fasilitas, kemiskinan berat, kualitas hidup rendah.

d. Cluster 4 – Daerah metropolitan / kota besar

Kemiskinan sedang (10.48)
Perceraian paling tinggi (9.84)
Kota terbanyak (7.33)
IPM bagus (71.97)

Profil: daerah kota besar/ibu kota, modern, mobilitas tinggi, tekanan urban kuat → perceraian tinggi.

e. Cluster 5 – Daerah menengah menuju berkembang

Kemiskinan moderat (9.60)
Perceraian sedang (8.10)
Kota moderat (2.12)
IPM moderat (70.58)

Profil: daerah berkembang, transisi dari semi-urban ke urban.

Plot PCA Individuals

Plot ini memproyeksikan seluruh data ke dua komponen utama PCA untuk melihat pemisahan klaster.

Interpretasi statistis:

Dimensi 1 menjelaskan 49.6% variasi.
Dimensi 2 menjelaskan 30.9%.
Total: plot menjelaskan 80.5% → sangat representatif.

Interpretasi visual klaster

Cluster 3 (abu-abu) jelas terpisah ke sisi kiri → mencerminkan daerah dengan kemiskinan tertinggi & IPM rendah.
Cluster 2 dan 4 di sisi kanan → daerah dengan IPM tinggi & cukup urban.
Cluster 1 dan 5 berada di tengah → karakteristik lebih moderat.

Kesimpulan ilmiah

Pemisahan klaster jelas dan stabil, menandakan k-means berhasil menemukan struktur alami pada data.
Overlap terjadi sedikit pada klaster 1 & 5 (karena karakternya memang mirip secara statistik).

Profil Centroid per klaster

Grafik ini menunjukkan nilai rata-rata (centroid) dari setiap variabel untuk masing-masing klaster. Centroid mencerminkan karakteristik umum tiap kelompok wilayah.

Klaster 1 (merah)

Klaster ini memiliki IPM sedang, angka JML.CERAI_log paling rendah (bahkan mendekati nol), jumlah kota rendah, dan persentase penduduk miskin rendah. Secara profil, klaster ini menggambarkan wilayah dengan kondisi sosial cukup baik, stabilitas keluarga tinggi, dan tingkat kemiskinan relatif rendah.

Klaster 2 (kuning)

Klaster ini menunjukkan IPM tertinggi di antara semua klaster, tetapi memiliki JML.CERAI_log cukup tinggi serta kemiskinan yang sedikit lebih tinggi dibanding klaster 1. Pola ini biasanya menggambarkan wilayah dengan pembangunan manusia kuat namun memiliki dinamika sosial (perceraian) yang lebih besar.

Klaster 3 (hijau)

Klaster 3 tampak sebagai anomali: variabel PERS.PEND.MISKIN sangat tinggi dibanding klaster lain, sementara fitur lainnya relatif rendah. Ini menunjukkan klaster berisi wilayah dengan tingkat kemiskinan ekstrem, sehingga klaster ini dapat dianggap sebagai kelompok rentan secara ekonomi.

Klaster 4 (biru)

Klaster ini terlihat lebih seimbang: IPM moderat, perceraian dan kemiskinan rendah–menengah, serta jumlah kota relatif menengah. Ini menggambarkan wilayah dengan karakteristik sosial-ekonomi yang stabil dan tidak ekstrem.

Klaster 5 (ungu)

Klaster terbesar ini memiliki nilai variabel mendekati rata-rata keseluruhan, tanpa nilai ekstrem. Secara statistis, klaster ini berfungsi sebagai klaster baseline atau kelompok mayoritas yang mewakili pola umum wilayah secara keseluruhan.

Silhouette Plot

Klaster 1 (merah) → nilai silhouette sebagian besar di atas 0.40 → pemisahan cukup baik.
Klaster 2 (kuning) → beberapa titik memiliki silhouette mendekati 0 atau negatif → indikasi klaster kurang stabil, beberapa anggota lebih mirip klaster lain.
Klaster 3 (hijau) → ada nilai negatif → anggota klaster cenderung sulit dibedakan, tumpang tindih kuat.
Klaster 4 (biru) → nilai silhouette relatif tinggi dan seragam, banyak mendekati 0.6 → klaster paling berkualitas.
Klaster 5 (ungu) → variasi cukup besar, dari sangat rendah hingga menengah; menunjukkan klaster sangat heterogen.

Nilai silhouette menggambarkan kualitas pemisahan antar-klaster.
Rentang interpretasi:

0.71–1.00 = sangat baik
0.51–0.70 = baik
0.26–0.50 = memadai
< 0.25 = buruk

Nilai rata-rata 0.38 berarti kualitas klasterisasi berada pada kategori memadai, artinya klaster sudah terbentuk dengan pemisahan yang cukup, tetapi masih terdapat tumpang tindih antar-klaster.

Tabel Silhouette per Klaster

Klaster 1: Klaster cukup kompak dan terpisah dengan baik
Klaster 2: Klaster buruk, pemisahan tidak jelas
Klaster 3: Klaster lemah. anggota saling tumpang tindih
Klaster 4: Klaster terbaik, stabil dan homogen
Klaster 5: Meski besar, pemisahan cukup baik, meski ada anggota borderline

Kesimpulan dari tabel:

Klaster 4 adalah yang paling valid secara struktur.
Klaster 2 dan 3 adalah klaster yang kualitasnya rendah dan anggotanya mungkin lebih cocok bila dikombinasikan atau direvisi jumlah klasternya.
Ukuran klaster yang sangat kecil (size 3 dan 4) juga berkontribusi pada silhouette rendah karena variasi internal kecil.

3.2. Pengujian asumsi (Visualisasi PCA)

Meskipun K-Means adalah algoritma non-parametrik yang tidak memerlukan asumsi distribusi data, validitas hasil clustering didukung oleh asumsi bahwa data memiliki struktur klaster yang inheren. Asumsi ini diuji secara visual menggunakan Principal Component Analysis (PCA).

Peran PCA: PCA digunakan untuk mengurangi dimensi data dari 4 variabel menjadi 2 komponen utama (Dim1 dan Dim2) dan tetap mempertahankan informasi varians data sebesar mungkin (Dim1: 49.6%, Dim2: 30.9%; total varians yang dijelaskan 80.5%). Ini berarti bahwa representasi 2 dimensi yang digunakan dalam visualisasi mampu menggambarkan sebagian besar informasi penting dalam dataset.
Interpretasi Visual:

Plot PCA menunjukkan bahwa pengelompokan yang dihasilkan oleh K-Means (K=5) berhasil memisahkan individu-individu ke dalam region yang berbeda pada bidang komponen utama.
- Pemisahan yang Kuat: Klaster 3 (abu-abu, kiri atas) dan Klaster 4 (biru, bawah) menunjukkan pemisahan yang jelas dari klaster lainnya, mengindikasikan bahwa karakteristik internal mereka sangat berbeda.
- Tumpang Tindih: Terdapat tumpang tindih visual antara Klaster 1, 2, dan 5 di sekitar pusat plot. Tumpang tindih ini konsisten dengan nilai Average Silhouette yang lebih rendah untuk Klaster 2 dan 3, menyarankan adanya titik data di area tersebut yang memiliki kemiripan fitur dengan anggota klaster lain, atau separasi klaster di dimensi yang tidak dijelaskan oleh Dim1 dan Dim2. Fenomena ini sangat wajar dalam konteks data sosial yang bersifat kontinu dan tidak memiliki batasan tegas. Tumpang tindih ini juga konsisten dengan nilai silhoutte yang relatif lebih rendah pada cluster 2 dan 3 yang mengindikasikan bahwa beberapa provinsi kemungkinan memiliki karakteristik yang mendekati anggota cluster lain.

Secara keseluruhan, visualisasi PCA mendukung asumsi bahwa data memiliki struktur grup alami yang dapat dibedakan, yang memvalidasi penerapan analisis K-Means.

3.3. Interpretasi hasil profil centroid

Interpretasi dilakukan berdasarkan nilai centroid masing-masing klaster pada skala aslinya, yang merepresentasikan nilai rata-rata multivariat dari variabel-variabel di dalam klaster tersebut. Nilai centroid ini merupakan profil karakteristik dari klaster.

Data centroid skala asli:

Cluster	persentase penduduk miskin	jumlah cerai	jumlah kota	IPM
1	7.37	0.00	1.00	71.96
2	8.04	8.94	3.00	78.99
3	21.93	4.72	1.25	65.05
4	10.48	9.84	7.33	71.97
5	9.60	8.10	2.12	70.58

Pembahasan Rinci Profil Klaster:

Klaster 3 (Klaster Prioritas/Tertinggal): Klaster ini memiliki profil sosio-ekonomi terendah. Variabel yang mendefinisikannya adalah nilai Persentase Penduduk Miskin (21.93%) yang jauh melebihi klaster lain dan nilai IPM (65.05) yang jauh terendah. Ini mengindikasikan wilayah dengan masalah kemiskinan dan keterlambatan pembangunan manusia yang paling serius.
Klaster 2 (Klaster Pembangunan Tinggi): Klaster ini memiliki profil pembangunan terbaik, ditandai oleh nilai IPM (78.99) yang tertinggi. Wilayah ini telah mencapai tingkat kesejahteraan tertinggi dibandingkan klaster lainnya, meskipun memiliki tingkat perceraian yang cukup tinggi (8.94). Hal ini sejalan dengan literatur yang menunjukkan bahwa pembangunan ekonomi tidak selalu diikuti oleh stabilitas rumah tangga.
Klaster 4 (Klaster Urban/Permasalahan Sosial): Klaster ini dicirikan oleh densitas perkotaan tertinggi dengan rata-rata $7.33$ jumlah kota dan JML.CERAI_log (9.84) yang paling tinggi. Tingginya angka perceraian sering kali berkorelasi dengan tekanan hidup di wilayah urban padat.
Klaster 1 (Klaster Konservatif/Pedalaman): Klaster ini memiliki nilai JML.CERAI_log (0.00) dan Jumlah Kota (1.00) yang terendah. Ini menunjukkan wilayah dengan karakteristik lebih pedesaan/tunggal kota yang cenderung memiliki ikatan sosial yang lebih kuat, tercermin dari angka perceraian yang sangat minim.
Klaster 5 (Klaster Tengah/Mayoritas): Merupakan klaster terbesar (size 17), ditandai dengan nilai variabel yang relatif berada di sekitar nilai rata-rata sampel keseluruhan. Cluster ini dapat dianggap sebagai representasi kondisi rata rata nasional dan mencakup provinsi dengan profil moderat tanpa nilai variabel yang ekstrem.

3.4. Pembahasan atas masing masing hasil yang diperoleh

Pembahasan ini menyatukan validitas statistik (Siluet) dengan interpretasi profil (Centroid).

3.4.1. Validitas dan Kualitas Cluster

Cluster	Ave.sil.wildth	Interpretasi kualitas	Implikasi
4	0.46	Kuat (strong)	Anggota klaster ini sangat homogen dan terpisah jelas dari klaster lain. Profil Urban/Perceraian Tinggi sangat spesifik.
1 dan 5	0.41	Kuat (strong)	Pengelompokan valid. Klaster 5 (Mayoritas) memiliki batas yang jelas meskipun ukurannya besar.
3	0.26	Sedang (fair)	Kohesi masih lemah. Beberapa anggota klaster Termiskin/IPM Rendah ini mungkin memiliki karakteristik yang mendekati Klaster 1 atau 5.
2	0.23	Sedang (fair)	Kualitas terendah. Klaster IPM Tinggi ini mungkin berdekatan dengan batas klaster lain.

Evaluasi kualitas klaster dilakukan dengan menggunakan nilai silhouette per klaster. Klaster 4 memiliki nilai silhouette tertinggi (≈ 0.46), diikuti klaster 1 dan 5 (≈ 0.41), yang menunjukkan bahwa ketiga klaster ini memiliki struktur yang kuat, kohesi internal tinggi, dan terpisah cukup jauh dari klaster lain. Klaster 3 (≈ 0.26) dan klaster 2 (≈ 0.23) memiliki nilai silhouette yang lebih rendah, menunjukkan bahwa beberapa provinsi dalam klaster ini memiliki kedekatan jarak dengan klaster lain dan berada dalam zona batas (borderline). Meski demikian, nilai silhouette keseluruhan sebesar 0.38 menunjukkan bahwa struktur klaster berada dalam kategori moderat hingga baik, yang sangat umum untuk data sosial yang tidak memiliki pola klaster yang sangat tegas.
Implikasi Kualitas Rendah: Rendahnya nilai siluet pada Klaster 2 dan 3 (sedang) menunjukkan adanya ketidakpastian dalam klasifikasi pada beberapa titik data di klaster tersebut. Hal ini mengimplikasikan bahwa batas antar klaster di wilayah ruang data tersebut tidak terlalu tajam, dan analisis lanjutan (hierarchical clustering atau DBSCAN) mungkin diperlukan untuk memvalidasi ulang keanggotaan klaster pada titik-titik marginal tersebut.
Selain silhouette, pemisahan klaster juga terlihat dari visualisasi PCA dan perbedaan centroid yang signifikan. Jarak centroid antar klaster—terutama antara klaster 3 dan klaster lainnya—sangat menunjukkan heterogenitas antar wilayah. Sementara itu, klaster 5 sebagai klaster terbesar memiliki kohesi internal yang tetap memadai meskipun terdiri dari banyak anggota, karena centroidnya berada pada nilai yang moderat dan tidak ekstrem.

3.4.2. Implikasi Manajerial/Kebijakan

Pembagian klaster berdasarkan indikator sosial-pembangunan memberikan dasar kuat bagi penyusunan kebijakan yang lebih tepat sasaran. Klaster 3 yang memiliki tingkat kemiskinan tertinggi dan IPM terendah memerlukan intervensi prioritas yang berfokus pada pemenuhan kebutuhan dasar, peningkatan akses pendidikan dan kesehatan, serta percepatan pembangunan fisik. Klaster 4 sebagai wilayah urban padat membutuhkan kebijakan pengelolaan perkotaan seperti perbaikan kualitas lingkungan hidup, akses transportasi, dan dukungan psikososial untuk menekan angka perceraian. Klaster 2, meskipun memiliki IPM tinggi, menunjukkan dinamika sosial keluarga yang rapuh sehingga perlu dukungan kebijakan sosial yang bersifat preventif dan edukatif. Klaster 1 perlu peningkatan konektivitas dan pemerataan layanan publik agar tidak semakin tertinggal dari wilayah yang lebih urban. Sementara itu, klaster 5 yang besar dan heterogen membutuhkan pendekatan kebijakan yang lebih fleksibel dan berbasis karakteristik spesifik masing-masing provinsi.

Pemisahan yang jelas dan profil yang berbeda dari kelima klaster membuktikan bahwa data wilayah yang diamati tidak homogen dan dapat dikelompokkan menjadi grup-grup dengan kebutuhan dan tantangan yang unik.

3.4.3. Evaluasi Vaiditas Cluster Menggunakan Sillhoutte Coefficient

Klaster 1 (size = 4, silhouette = 0.41)

Klaster 1 memiliki nilai Silhouette 0.41, yang termasuk kategori strong. Hal ini menunjukkan bahwa anggota-anggota dalam klaster 1 memiliki kemiripan internal yang kuat dan berada cukup jauh dari klaster-klaster lain. Artinya, ciri khas Klaster 1 jelas dan terdefinisi dengan baik.

Simpulan: Klaster 1 merupakan klaster yang valid, kompak, dan terpisah cukup baik dari klaster lain.

Klaster 2 (size = 3, silhouette = 0.23)

Klaster 2 memiliki nilai Silhouette paling rendah yaitu 0.23, berada pada batas bawah kategori fair. Ini mengindikasikan bahwa:

a. beberapa titik data di klaster ini berada dekat dengan batas klaster lain,

b. atau karakteristik klaster 2 belum terlalu kuat dalam membedakan diri dari klaster lain.

Simpulan: Klaster ini memiliki ketidakstabilan atau ambiguitas dalam sebagian anggotanya, sehingga interpretasi klasternya perlu lebih hati-hati.

Klaster 3 (size = 4, sillhoutte = 0.26)

Nilai Silhouette sebesar 0.26, berada pada kategori fair. Artinya klaster ini memiliki pemisahan yang cukup jelas tetapi masih terdapat kemungkinan bahwa beberapa anggota menunjukkan kemiripan dengan klaster lain.

Simpulan: Klaster ini valid, namun kualitas pemisahannya tidak sekuat klaster 1 dan 4.

Klaster 4 (size = 6, silhouette = 0.46)

Klaster 4 memiliki nilai Silhouette tertinggi, yaitu 0.46.Nilai ini mendekati kategori “baik”, menunjukkan bahwa anggota klaster ini sangat kompak, sangat homogen, memiliki batas pemisahan yang paling jelas dari klaster-klaster lainnya.

Simpulan: Klaster 4 adalah klaster paling stabil dan paling terdefinisi dengan baik dalam model.

Klaster 5 (size = 17, silhouette = 0.41)

Klaster terbesar dalam sampel memiliki nilai Silhouette 0.41, yang menunjukkan klaster besar ini tetap memiliki homogenitas internal yang kuat dan anggotanya cukup jelas terpisah dari klaster lain

Simpulan: Walaupun berukuran besar, klaster ini tetap menunjukkan struktur internal yang baik dan stabil.

Klaster	Makan statistik	Kualitas pemisahan
4	Sillhouette tertinggi (0.46)	Paling baik
1	0.41	Kuat
5	0.41	Kuat
3	0.26	Cukup baik
2	0.23	Paling lemah

Struktur klaster secara umum baik dan stabil, ditunjukkan oleh tiga klaster utama (1, 4, dan 5) yang memiliki nilai Silhouette kuat (>0.40). Klaster dengan kualitas paling rendah adalah klaster 2, sehingga karakteristik klaster tersebut perlu ditinjau lebih hati-hati dan dapat menjadi kandidat untuk diperiksa dengan metode klasterisasi lain (misalnya hierarchical clustering) sebagai validasi tambahan.

Nilai rata-rata Silhouette yang umumnya berada dalam rentang 0.23–0.46 menunjukkan bahwa model K-Means menghasilkan klaster yang cukup stabil, dengan sebagian besar klaster berada pada kategori kuat (strong). Hal ini mengindikasikan bahwa hasil pengelompokan bukan merupakan artefak inisialisasi acak, tetapi mencerminkan struktur multivariat yang benar-benar ada dalam data.

4. Kesimpulan dan Saran

4.1. Kesimpulan

Berdasarkan seluruh rangkaian analisis yang dilakukan, mulai dari pengolahan awal data, penentuan jumlah klaster optimal, pelaksanaan algoritma K-Means, evaluasi validitas klaster, interpretasi visual dengan PCA, hingga analisis profil klaster menggunakan centroid, maka dapat dirumuskan beberapa kesimpulan sebagai berikut:

1. Variabel kemiskinan, jumlah perceraian, jumlah kota, dan IPM terbukti mampu menggambarkan kondisi kerentanan sosial dan pembangunan antarprovinsi di Indonesia.
Keempat variabel memiliki karakteristik berbeda (range dan satuan berbeda), sehingga proses standardisasi mutlak dilakukan untuk memastikan analisis klaster tidak bias terhadap variabel berskala besar seperti jumlah perceraian dan jumlah kota. Pemilihan variabel ini terbukti relevan karena masing-masing mewakili dimensi sosial, demografi, dan pembangunan manusia.

2. Penentuan jumlah klaster optimal berdasarkan Elbow Method dan Silhouette mengarahkan pada pembentukan 5 klaster.
Metode Elbow menunjukkan pelandaian (elbow) yang signifikan pada k=5, sementara metode Silhouette menunjukkan dukungan yang sama melalui kestabilan nilai rata-rata silhouette pada k=5. Pemilihan k=5 juga logis secara substantif karena heterogenitas antarprovinsi Indonesia cukup besar.

3. Hasil K-Means menghasilkan lima klaster dengan ukuran berbeda (size 3, 4, 4, 6, 17) serta struktur klaster yang stabil.
Evaluasi silhouette menunjukkan kualitas klaster sebagai berikut:

Klaster 4 paling kuat (0.46),
Klaster 1 dan 5 juga kuat (0.41),
Klaster 3 cukup baik (0.26),
Klaster 2 yang paling lemah (0.23).

Hal ini menegaskan bahwa pengelompokan yang dihasilkan bersifat bermakna, stabil, dan bukan merupakan artefak inisialisasi acak dari algoritma K-Means.

4. Visualisasi PCA menunjukkan bahwa struktur klaster memang nyata dan dapat dibedakan secara multivariat.
Dua komponen utama menjelaskan 80,5% varians data, cukup untuk menangkap struktur penyebaran data. Beberapa klaster terpisah jelas (misalnya klaster 3 dan klaster 4), sementara sebagian lain memiliki tumpang tindih moderat (misalnya klaster 1, 2, dan 5). Hal ini konsisten dengan nilai silhouette per klaster.

5. Profil centroid tiap klaster menggambarkan perbedaan sosial dan pembangunan yang sangat jelas antarprovinsi.
Interpretasi centroid menghasilkan karakteristik sebagai berikut:

Klaster 3 (Termiskin / IPM Paling Rendah)

-    Kemiskinan tertinggi (21.93%)

-    IPM terendah (65.05)\
    Klaster dengan kerentanan sosial paling serius.

Klaster 2 (Pembangunan Tinggi)

-    IPM tertinggi (78.99)\
    Provinsi dengan capaian pembangunan manusia tertinggi.

Klaster 4 (Urban / Perceraian Tinggi)

-    Jumlah kota tertinggi (7.33)

-   Perceraian tertinggi (9.84)\
    Representasi wilayah perkotaan padat dengan dinamika sosial lebih tinggi.

Klaster 1 (Konservatif / Pedalaman)

-   Perceraian terendah (0)

-    Jumlah kota paling sedikit (1)\
    Wilayah dengan karakter pedesaan dan stabilitas sosial lebih tinggi.

Klaster 5 (Klaster Mayoritas / Sedang)
- Nilai seluruh variabel berada di sekitar rata-rata
  Mewakili sebagian besar provinsi Indonesia.

6. Hasil clustering menggambarkan gambaran komprehensif mengenai disparitas sosial dan pembangunan antarprovinsi Indonesia.
Klaster-klaster menunjukkan bahwa kerentanan sosial bukan hanya dipengaruhi oleh kemiskinan, tetapi juga oleh urbanisasi (jumlah kota), dinamika keluarga (perceraian), dan kualitas pembangunan manusia (IPM).

4.2. Saran

Berdasarkan temuan yang diperoleh dari analisis yang telah dilakukan, beberapa saran dapat diajukan sebagai berikut:

1. Pemerintah pusat dan daerah dapat menggunakan hasil klaster ini sebagai dasar prioritas kebijakan.

Klaster 3 (termiskin) perlu menjadi fokus utama intervensi pembangunan, terutama pada sektor pendidikan, kesehatan, dan pengentasan kemiskinan.
Klaster 4 (urban) perlu diperkuat dengan kebijakan layanan sosial, konseling keluarga, dan manajemen kepadatan kota.
Klaster 2 (pembangunan tinggi) dapat diarahkan pada strategi peningkatan daya saing dan inovasi pembangunan.

2. Hasil klaster dapat digunakan sebagai basis perencanaan pembangunan wilayah berbasis karakteristik sosial.
Mapping klaster dapat membantu Bappeda/instansi terkait menentukan alokasi anggaran, terutama untuk wilayah dengan kerentanan tinggi.

3. Klaster 2 dan 3 yang memiliki nilai silhouette rendah disarankan untuk diverifikasi ulang menggunakan metode klasterisasi lain.

Misalnya: Hierarchical Clustering, DBSCAN, Gaussian Mixture Model (GMM). Tujuannya memastikan bahwa titik data yang berada di batas klaster tidak salah penempatan.

4. Untuk penelitian selanjutnya, dapat dipertimbangkan untuk menambah variabel baru terkait kerentanan sosial.
Variabel yang dapat dipertimbangkan:

Tingkat pengangguran
Rasio ketergantungan
Indeks ketimpangan (Gini)
Tingkat kriminalitas
Variabel ekonomi seperti PDRB per kapita

Penambahan variabel dapat meningkatkan presisi hasil clustering.

5. Penggunaan data dalam kurun waktu panjang (panel data) dapat memberikan gambaran dinamika klaster dari waktu ke waktu.
Dengan demikian, dapat dianalisis apakah sebuah provinsi mengalami mobilitas klaster (perbaikan atau penurunan).

Referensi:

Santoso, S. (2017). Statistik Multivariat Edisi Revisi. Jakarta: PT Gramedia.

Hidayat, R. (2019). Data Mining: Teori dan Aplikasi Menggunakan R. Yogyakarta: Andi Publisher.

Prasetyo, E. (2014). Data Mining: Konsep dan Aplikasi Menggunakan MATLAB. Yogyakarta: Andi.

Widarjono, A. (2020). Analisis Multivariat Terapan dengan Program R. Yogyakarta: UPP STIM YKPN.

Syarifuddin, I., & Hidayat, M. (2018). Evaluasi cluster menggunakan indeks silhouette pada metode K-Means. Jurnal Teknologi Informasi dan Ilmu Komputer, 5(3), 291–298.

Sari, M., & Surya, D. (2021). Analisis penentuan jumlah cluster optimal menggunakan metode elbow dan silhouette. Jurnal Sains dan Informatika, 7(2), 150–160.

Purwanto, H. (2018). Analisis Komponen Utama Menggunakan R. Jakarta: Kencana.

BPS. (2022). Publikasi PCA untuk Analisis Indikator Sosial Ekonomi. Jakarta: Badan Pusat Statistik.

Badan Pusat Statistik (BPS). (2023). Indeks Pembangunan Manusia 2023. Jakarta: BPS.

Badan Pusat Statistik (BPS). (2023). Profil Kemiskinan di Indonesia 2023. Jakarta: BPS.

Badan Pusat Statistik (BPS). (2023). Statistik Perceraian Indonesia 2023. Jakarta: BPS.

Badan Pusat Statistik (BPS). (2022). Statistik Indonesia 2022. Jakarta: BPS.

UNDP Indonesia. (2021). Human Development Report Indonesia. Jakarta: UNDP Indonesia.

BNPB. (2020). Indeks Risiko Bencana Indonesia (IRBI). Jakarta: Badan Nasional Penanggulangan Bencana.

Kementerian PPN/Bappenas. (2020). Kajian Kerentanan Sosial dan Ekonomi di Indonesia. Jakarta: Bappenas.

Fitriani, R., & Sari, W. (2019). Analisis kerentanan sosial menggunakan pendekatan indikator komposit. Jurnal Pembangunan Wilayah & Kota, 15(4), 233–244.

Yusuf, A. A., & Fransisco, H. (2014). Climate Vulnerability in Indonesia: A Regional Analysis. Bandung: FE Unpad.

UAP_Asy Syifa Raissa Chalista_235090507111052

2025-11-29

“Klasterisasi Tingkat Kerentanan Sosial dan Pembangunan Provinsi di Indonesia”

1. Pendahuluan

1.1. Latar Belakang

1.2. Cuplikan data yang digunakan

1.3. Relevansi variabel dalam analisis cluster

1.4. Latar belakang metode

1.5. Alasan Memilih Metode K-Means

1.6. Tinjauan Pustaka

1.7. Tujuan Penelitian

2. Source Code dan Penjelasannya

3. Hasil dan Pembahasan

3.1. Tampilkan hasil analisis

3.2. Pengujian asumsi (Visualisasi PCA)

3.3. Interpretasi hasil profil centroid

Pembahasan Rinci Profil Klaster:

3.4. Pembahasan atas masing masing hasil yang diperoleh

3.4.1. Validitas dan Kualitas Cluster

3.4.2. Implikasi Manajerial/Kebijakan

3.4.3. Evaluasi Vaiditas Cluster Menggunakan Sillhoutte Coefficient

4. Kesimpulan dan Saran

4.1. Kesimpulan

4.2. Saran

Referensi: