Kemiskinan di Indonesia merupakan isu yang kompleks dan bervariasi antar provinsi akibat perbedaan kondisi pendidikan, kesehatan, dan ekonomi masyarakat. Dataset Kaggle “Klasifikasi Tingkat Kemiskinan di Indonesia” menyediakan berbagai indikator penting seperti rata-rata lama sekolah, pengeluaran per kapita, IPM, umur harapan hidup, akses sanitasi dan air minum layak, tingkat pengangguran terbuka, tingkat partisipasi angkatan kerja, serta PDRB yang mencerminkan tingkat pembangunan di setiap daerah. Mengingat banyaknya indikator yang saling berkaitan, analisis cluster k-means dipilih untuk mengelompokkan provinsi-provinsi di Indonesia berdasarkan kemiripan karakteristik sosial-ekonominya. Pendekatan ini membantu mengidentifikasi pola kelompok wilayah yang memiliki tingkat kesejahteraan serupa, sehingga memberikan gambaran yang lebih jelas mengenai persebaran dan karakteristik kemiskinan di Indonesia serta dapat mendukung perumusan kebijakan pembangunan yang lebih tepat sasaran.
Mengelompokkan provinsi-provinsi di Indonesia ke dalam klaster-klaster berdasarkan kemiripan karakteristik sosial-ekonomi ( \(X_1\) hingga \(X_9\)) menggunakan algoritma K-Means Clustering.
Memberikan gambaran yang jelas mengenai sebaran geografis kelompok wilayah yang memiliki tingkat kesejahteraan serupa, sehingga dapat memperlihatkan disparitas pembangunan antarprovinsi di Indonesia.
Mendeskripsikan secara rinci karakteristik dan profil setiap klaster yang terbentuk (Klaster Sejahtera, Klaster Menengah, Klaster Tertinggal) berdasarkan nilai rata-rata variabel indikator kemiskinan dan pembangunan.
Pemilihan metode K-Means Clustering didorong oleh kebutuhan untuk menganalisis data multivariat (sembilan indikator sosial-ekonomi, \(X_1\) hingga \(X_9\)) secara efisien. K-Means dipilih karena kemampuannya sebagai algoritma unsupervised learning yang efektif dalam mengidentifikasi kelompok-kelompok yang secara statistik homogen (memiliki kemiripan karakteristik tinggi) dalam data berdimensi banyak. Dengan mengelompokkan provinsi berdasarkan kedekatan jarak Euclidean, metode ini memungkinkan penyederhanaan data yang kompleks menjadi kategori pembangunan yang jelas (Klaster Sejahtera, Menengah, Tertinggal). Pendekatan ini krusial untuk memberikan gambaran yang terstruktur mengenai pola dan sebaran kemiskinan, yang mendukung perumusan kebijakan yang lebih terfokus dan tepat sasaran.
Data diambil dari dataset kaggle dengan judul Klasifikasi Tingkat Kemiskinan di Indonesia. Diambil beberapa variabel yang digunakan dalam analisis ini. Berikut adalah data yang digunakan.
Link sumber : https://www.kaggle.com/datasets/ermila/klasifikasi-tingkat-kemiskinan-di-indonesia
Daftar variabel yang digunakan dalam analisis ini adalah:
Statistika deskriptif adalah metode-metode yang berkaitan dengan pengumpulan dan penyajian suatu himpunan data sehingga memberikan informasi yang berguna (Walpole, 1995). Statistika deskriptif memberikan gambaran awal mengenai pola, kecenderungan, dan karakteristik data sebelum dilakukan analisis lebih lanjut.
Analisis cluster non-hierarki adalah metode pengelompokan yang mengharuskan penentuan jumlah klaster (k) terlebih dahulu (Hair et al., 2010). Metode ini bekerja secara iteratif, di mana objek dialokasikan ke klaster sedemikian rupa sehingga memaksimalkan homogenitas di dalam klaster dan heterogenitas antar klaster. Beberapa contoh analisis cluster non hirarki adalah K-Means, K-Medoids, dan CLARA.
K-means clustering, yaitu teknik unsupervised learning yang berfungsi mengelompokkan objek ke dalam beberapa cluster berdasarkan tingkat kemiripannya. Prosedur k-means dimulai dengan menentukan jumlah cluster (k), kemudian mengalokasikan setiap objek ke centroid terdekat menggunakan jarak Euclidean pada data yang telah distandarisasi. Algoritma selanjutnya memperbarui posisi centroid secara iteratif hingga perubahan anggota cluster berhenti atau mencapai kondisi konvergen, sehingga terbentuk cluster yang kompak di dalam dan terpisah antar cluster. Metode ini dipilih karena efektif dalam mengidentifikasi pola kemiripan antar provinsi berdasarkan indikator sosial-ekonomi seperti pendidikan, kesehatan, dan pengeluaran, sehingga dapat menggambarkan karakteristik kemiskinan secara lebih terstruktur.
library(psych)
library(GPArotation)
library(clValid)
library(ggplot2)
library(cluster)
library(factoextra)
library(tidyverse)
library(car)
library(readxl)
Penjelasan fungsi Library:
readxl digunakan untuk membaca file Excel (.xlsx) tanpa
memerlukan aplikasi Microsoft Excel.psych digunakan untuk melakukan analisis statistik
dasar seperti reliabilitas, korelasi, dan analisis faktor.GPArotation digunakan untuk melakukan rotasi faktor
seperti varimax, oblimin, dan promax dalam analisis faktor.clValid digunakan untuk mengevaluasi hasil clustering
dengan berbagai indeks validitas seperti Dunn Index dan Silhouette.ggplot2 digunakan untuk membuat visualisasi data yang
fleksibel dan informatif berbasis grammar of graphics.cluster digunakan untuk melakukan analisis cluster
seperti K-Means, hierarchical clustering, dan perhitungan jarak.factoextra digunakan untuk memvisualisasikan hasil
analisis multivariat, terutama clustering (Elbow, Silhouette,
dendrogram, dan plot cluster).tidyverse adalah kumpulan paket seperti
dplyr, tidyr, dan ggplot2 yang
mempermudah proses pembersihan, manipulasi, serta visualisasi data.car digunakan untuk analisis regresi dan diagnostik
seperti VIF, uji linearitas, dan transformasi Box-Cox.data <- read_excel("/Users/putudamaigiridewi/Documents/data kemiskinan indonesia.xlsx")
#Ganti koma (,) menjadi titik (.) di kolom 3 hingga 11 untuk perbaikan desimal
data[,3:11] <- lapply(data[,3:11], function(x) {
# Pastikan kolom diperlakukan sebagai karakter sebelum penggantian
x_char <- as.character(x)
# Ganti koma dengan titik (pemisah desimal standar R)
cleaned_x <- gsub(",", ".", x_char)
return(cleaned_x)
})
#Konversi kolom 3 hingga 11 yang sudah bersih menjadi numerik
data[,3:11] <- lapply(data[,3:11], as.numeric)
data<-data.frame(data)
# Perbaikan: Pastikan semua kolom diberi nama (jika ada yang kosong, R akan menamai V1, V2, dst.)
data <- as.data.frame(data)
# Variabel yang digunakan untuk Clustering adalah X1 sampai X9
data_numerik <- data[, 3:11]
# Perbaikan: Pastikan data_numerik juga di-clean.
data_numerik <- as.data.frame(data_numerik)Penjelasan syntax :
data <- read_excel("...") digunakan untuk membaca
file Excel dan menyimpannya sebagai data frame bernama
data.
data[,3:11] <- lapply(data[,3:11], function(x){ ... })
digunakan untuk menerapkan sebuah fungsi ke setiap kolom dari kolom 3
hingga 11.
x_char <- as.character(x) digunakan untuk
mengubah nilai kolom menjadi tipe karakter agar pemrosesan string
(penggantian koma) bisa dilakukan.
cleaned_x <- gsub(",", ".", x_char) digunakan
untuk mengganti koma (,) menjadi titik (.) sebagai pemisah desimal yang
sesuai standar R.
return(cleaned_x) digunakan untuk mengembalikan
nilai kolom yang sudah diganti koma menjadi titik.
data[,3:11] <- lapply(data[,3:11], as.numeric)
digunakan untuk mengonversi kembali kolom 3 hingga 11 yang sudah bersih
menjadi tipe numerik.
data <- data.frame(data) digunakan untuk
memastikan bahwa objek data tersimpan dalam format data
frame.
data_numerik <- data[, 3:11] digunakan untuk
mengekstrak hanya kolom 3 hingga 11 dari data, yaitu variabel \(X_1\) sampai \(X_9\) yang akan dipakai dalam analisis
clustering.
Penjelasan syntax :
statdes <- summary(data_numerik) digunakan untuk
menghitung statistik deskriptif (minimum, maksimum, median, mean, dan
kuartil) dari seluruh variabel numerik.
print(statdes) digunakan untuk menampilkan hasil
statistik deskriptif tersebut ke konsol.
## Kaiser-Meyer-Olkin factor adequacy
## Call: KMO(r = data_numerik)
## Overall MSA = 0.67
## MSA for each item =
## X1 X2 X3 X4 X5 X6 X7 X8 X9
## 0.60 0.63 0.61 0.51 0.91 0.91 0.81 0.74 0.67
Penjelasan Syntax :
kmo <- KMO(data_numerik) digunakan untuk
menghitung nilai Kaiser-Meyer-Olkin (KMO), yaitu uji kelayakan sampel
untuk analisis faktor pada variabel numerik.
print(kmo) digunakan untuk menampilkan hasil
perhitungan KMO ke konsol.
Penjelasan syntax :
korelasi <- cor(data_numerik, method = 'pearson')
digunakan untuk menghitung matriks korelasi Pearson antar seluruh
variabel numerik.
print(korelasi) digunakan untuk menampilkan matriks
korelasi yang telah dihitung ke konsol.
Penjelasan syntax :
datastand <- scale(data_numerik) digunakan untuk
menstandarisasi seluruh variabel numerik agar memiliki mean = 0 dan
standar deviasi = 1 sebelum dilakukan analisis clustering.
rownames(datastand) <- 1:nrow(datastand)
digunakan untuk mengubah nama baris data hasil standarisasi menjadi
urutan angka 1 hingga jumlah baris data.
datastand digunakan untuk menampilkan hasil data
yang telah distandarisasi.
set.seed(42) digunakan untuk menetapkan nilai seed
agar proses perhitungan K-Means bersifat reproducible sehingga hasilnya
selalu sama setiap kali dijalankan.
fviz_nbclust(datastand, kmeans, method = "silhouette")
digunakan untuk menentukan jumlah cluster optimal dengan metode
Silhouette menggunakan data yang sudah distandarisasi.
#Berdasarkan validasi sebelumnya didapatkan k=3
k_optimal <- 3
#RUN K-MEANS ALGORITHM dengan k_optimal
set.seed(42)
kmeans_result <- kmeans(datastand,
centers = k_optimal,
nstart = 25)
print(kmeans_result) Penjelasan syntax :
k_optimal <- 3 digunakan untuk menetapkan jumlah
cluster optimal (k) yang telah diperoleh dari hasil validasi
sebelumnya.
set.seed(42) digunakan untuk memastikan hasil
algoritma K-Means tetap konsisten setiap kali kode dijalankan.
kmeans_result <- kmeans(datastand, centers = k_optimal, nstart = 25)
digunakan untuk menjalankan algoritma K-Means pada data yang sudah
distandarisasi dengan jumlah cluster sebanyak 3 dan melakukan 25
inisialisasi awal agar hasil clustering lebih stabil.
print(kmeans_result) digunakan untuk menampilkan
hasil lengkap proses K-Means, termasuk pusat cluster, ukuran cluster,
dan total within-cluster sum of squares.
fviz_cluster(kmeans_result,
data = datastand,
palette = "jco",
geom = "point",
ellipse.type = "convex",
ggtheme = theme_minimal(),
main = paste("K-Means Clustering (k=", k_optimal, ")")
) Penjelasan Syntax :
fviz_cluster(kmeans_result, data = datastand, ...)
digunakan untuk memvisualisasikan hasil clustering K-Means secara grafik
menggunakan data yang telah distandarisasi.
palette = "jco" digunakan untuk mengatur warna
cluster agar lebih jelas dan estetik menggunakan palet warna dari jurnal
JCO.
geom = "point" digunakan untuk menampilkan setiap
objek data sebagai titik pada plot.
ellipse.type = "convex" digunakan untuk menggambar
batas cluster dalam bentuk convex hull, yaitu area yang
mengelilingi titik-titik dalam setiap cluster.
ggtheme = theme_minimal() digunakan untuk memberikan
tampilan grafik yang sederhana dan bersih.
main = paste("K-Means Clustering (k=", k_optimal, ")")
digunakan untuk memberikan judul pada plot sesuai jumlah cluster yang
digunakan.
## X1 X2 X3 X4
## Min. : 1.420 Min. : 3976 Min. :32.84 Min. :55.43
## 1st Qu.: 7.510 1st Qu.: 8574 1st Qu.:66.64 1st Qu.:67.39
## Median : 8.305 Median :10196 Median :69.61 Median :69.97
## Mean : 8.437 Mean :10325 Mean :69.93 Mean :69.66
## 3rd Qu.: 9.338 3rd Qu.:11719 3rd Qu.:73.11 3rd Qu.:72.04
## Max. :12.830 Max. :23888 Max. :87.18 Max. :77.73
## X5 X6 X7 X8
## Min. : 0.00 Min. : 0.00 Min. : 0.000 Min. :56.39
## 1st Qu.:70.22 1st Qu.: 79.04 1st Qu.: 3.180 1st Qu.:65.07
## Median :81.80 Median : 89.80 Median : 4.565 Median :68.95
## Mean :77.20 Mean : 85.14 Mean : 5.059 Mean :69.46
## 3rd Qu.:89.88 3rd Qu.: 96.40 3rd Qu.: 6.530 3rd Qu.:72.34
## Max. :99.97 Max. :100.00 Max. :13.370 Max. :97.93
## X9
## Min. : 147485
## 1st Qu.: 3654292
## Median : 8814926
## Mean : 21964077
## 3rd Qu.: 19735101
## Max. :460081046
Dilihat dari statistika deskriptif secara umum, variabel seperti Rata-rata Lama Sekolah (\(X_1\)), IPM (\(X_3\)), Umur Harapan Hidup (\(X_4\)), dan indikator akses layanan dasar (Sanitasi \(X_5\) dan Air Minum \(X_6\)) memiliki nilai rata-rata dan median yang relatif berdekatan, mengindikasikan distribusi yang cukup stabil dan terpusat di sebagian besar wilayah. Namun, perlu dicatat bahwa variabel Pengeluaran per Kapita (\(X_2\)) dan khususnya PDRB (\(X_9\)) menunjukkan dispersi dan kemiringan yang sangat signifikan; PDRB (\(X_9\)) memiliki rata-rata (22 juta) yang jauh lebih besar daripada median-nya (8,8 juta) dengan nilai maksimum mencapai 460 juta, hal ini menegaskan adanya kesenjangan ekonomi regional yang sangat lebar, di mana sedikit wilayah memiliki nilai PDRB yang ekstrem tinggi, sementara mayoritas wilayah terkonsentrasi pada tingkat yang jauh lebih rendah, mencerminkan tantangan besar dalam pemerataan hasil pembangunan di Indonesia.
## Kaiser-Meyer-Olkin factor adequacy
## Call: KMO(r = data_numerik)
## Overall MSA = 0.67
## MSA for each item =
## X1 X2 X3 X4 X5 X6 X7 X8 X9
## 0.60 0.63 0.61 0.51 0.91 0.91 0.81 0.74 0.67
Hasil uji Kaiser-Meyer-Olkin (KMO) menunjukkan nilai overall MSA sebesar 0,67, yang berarti kelayakan data untuk analisis faktor berada pada kategori cukup sehingga masih layak untuk dilanjutkan. Nilai MSA per variabel sebagian besar berada di atas 0,50, menandakan bahwa variabel-variabel tersebut cukup cocok untuk dianalisis. Maka dari itu data layak digunakan untuk analisis cluster karena kecukupan sampel terpenuhi.
## X1 X2 X3 X4 X5 X6 X7
## X1 1.0000000 0.6688473 0.8688109 0.4160388 0.6125164 0.4589014 0.5192537
## X2 0.6688473 1.0000000 0.8715336 0.5668087 0.5682333 0.4462669 0.5510882
## X3 0.8688109 0.8715336 1.0000000 0.7070837 0.6967535 0.5499921 0.5788668
## X4 0.4160388 0.5668087 0.7070837 1.0000000 0.4640760 0.4074537 0.4186352
## X5 0.6125164 0.5682333 0.6967535 0.4640760 1.0000000 0.5430341 0.3102468
## X6 0.4589014 0.4462669 0.5499921 0.4074537 0.5430341 1.0000000 0.4104018
## X7 0.5192537 0.5510882 0.5788668 0.4186352 0.3102468 0.4104018 1.0000000
## X8 -0.5002928 -0.4016942 -0.5130520 -0.2322629 -0.4391536 -0.4034359 -0.5823936
## X9 0.2712615 0.5128919 0.3719521 0.3238798 0.1866154 0.2261549 0.3934575
## X8 X9
## X1 -0.5002928 0.2712615
## X2 -0.4016942 0.5128919
## X3 -0.5130520 0.3719521
## X4 -0.2322629 0.3238798
## X5 -0.4391536 0.1866154
## X6 -0.4034359 0.2261549
## X7 -0.5823936 0.3934575
## X8 1.0000000 -0.2099123
## X9 -0.2099123 1.0000000
Matriks korelasi menunjukkan bahwa tidak terjadi multikolinearitas ekstrem, karena sebagian besar koefisien korelasi antar pasangan variabel memiliki nilai yang berada di bawah ambang batas tinggi seperti 0.80 atau 0.90 yang sering menjadi kekhawatiran. Korelasi terkuat ditemukan antara IPM (X3) dengan Rata-rata Lama Sekolah (\(X_1\)) pada 0.868 dan dengan Pengeluaran per Kapita (\(X_2\)) pada 0.871, yang mana nilai-nilai tersebut, meskipun tinggi, masih dapat diterima dalam banyak model. Sebaliknya, variabel Tingkat Pengangguran Terbuka (\(X_7\)) dan Tingkat Partisipasi Angkatan Kerja (\(X_8\)) menunjukkan korelasi negatif yang sedang hingga kuat dengan indikator IPM dan kesejahteraan, mencerminkan bahwa daerah dengan partisipasi atau pengangguran yang tinggi cenderung memiliki tingkat pembangunan manusia yang lebih rendah.
Proses standarisasi menggunakan metode z-score, seluruh variabel kini berada pada skala yang sama, yaitu memiliki rata-rata 0 dan standar deviasi 1. Proses ini penting untuk mencegah variabel dengan nilai besar mendominasi perhitungan jarak dalam analisis clustering. Dengan data yang sudah distandarisasi, setiap variabel berkontribusi secara proporsional terhadap pembentukan cluster, sehingga hasil pengelompokan menjadi lebih objektif dan akurat.
Grafik Average Silhouette Width menunjukkan bahwa jumlah klaster optimal (k) untuk data ini adalah 3, karena pada k=3 nilai Average Silhouette Width mencapai puncaknya yang tertinggi, yaitu sekitar 0.32. Nilai ini mengindikasikan bahwa, secara rata-rata, objek-objek dalam klaster tersebut cukup baik terpisah dari klaster tetangga (separation) dan cukup padat dalam klaster mereka sendiri (cohesion). Meskipun nilai 0.32 tidak tergolong sangat tinggi, ini adalah konfigurasi klaster terbaik yang dapat dicapai data berdasarkan metrik siluet, menunjukkan bahwa membagi wilayah di Indonesia ke dalam tiga kelompok pembangunan (Klaster 1, Klaster 2, dan Klaster 3) adalah cara yang paling tepat untuk membedakan karakteristik kemiskinan dan kesejahteraan tiap provinsi.
Analisis klaster K-Means berhasil membagi wilayah administrasi menjadi tiga kategori yang optimal, sebagaimana didukung oleh grafik Average Silhouette Width yang mencapai puncaknya (sekitar 0.32) pada 3 klaster. Secara ringkas, klaster 1 (Sejahtera) dihuni oleh wilayah dengan indikator pembangunan (\(X_1\)-X6) dan PDRB (\(X_9\)) yang sangat tinggi, berkorelasi positif kuat (misalnya, korelasi \(X_1\)-\(X_3\) adalah 0.8688). Sebaliknya, klaster 3 (Tertinggal) terdiri dari wilayah dengan indikator pembangunan dan PDRB yang jauh di bawah rata-rata. Klaster 3 dicirikan oleh Tingkat Partisipasi Angkatan Kerja (TPAK, \(X_8\)) yang tinggi, namun juga Tingkat Pengangguran Terbuka (TPT, \(X_7\)) yang tinggi, mencerminkan adanya populasi besar yang aktif mencari kerja tetapi gagal menemukan pekerjaan layak, atau indikasi pekerjaan yang tidak produktif. Sementara itu, klaster 2 (Menengah) menempati posisi transisi dengan karakteristik campuran yang berada di antara dua klaster ekstrem tersebut.
Tiga klaster yang terbentuk menunjukkan disparitas pembangunan geografis yang kuat di Indonesia. Klaster 1 (Sejahtera) sebagian besar terkonsentrasi di wilayah Indonesia bagian Barat, mencakup pusat-pusat metropolitan utama dan wilayah dengan ekonomi maju, ditandai dengan inklusi sebagian besar DKI Jakarta, Banten, dan Jawa Barat (seperti Bogor, Bekasi), serta ibu kota provinsi utama dan pusat regional di Sumatera dan Bali (seperti Medan, Banda Aceh, dan Denpasar). Sebaliknya, Klaster 3 (Tertinggal) didominasi oleh wilayah di Indonesia Timur dan daerah kepulauan terpencil, dengan konsentrasi yang sangat signifikan di kabupaten-kabupaten Papua (seperti Teluk Wondama, Nduga, Yahukimo, Asmat) dan sebagian besar wilayah Nusa Tenggara Timur (NTT), selain juga mencakup daerah-daerah pedalaman di Sumatera (misalnya Nias dan Kepulauan Mentawai) dan Sulawesi. Sementara itu, Klaster 2 (Menengah/Transisi) mengisi ruang di antara kedua ekstrem tersebut, meliputi kabupaten/kota dengan pembangunan moderat di Jawa Tengah, Jambi, Lampung, dan beberapa wilayah regional lainnya.
Berdasarkan visualisasi K-Means Clustering data berhasil terbagi menjadi tiga klaster yang terpisah dengan cukup baik. Klaster 2 (berwarna kuning) dan Klaster 1 (berwarna biru) terlihat cukup padat dan berdekatan, mencerminkan adanya kemiripan karakteristik yang mungkin mewakili kelompok menengah dan sejahtera. Sementara itu, Klaster 3 (berwarna abu-abu) terlihat terpisah secara signifikan dari dua klaster lainnya, terutama di sumbu Dimensi 1 (yang menyumbang 55% varians data), mengindikasikan adanya perbedaan karakteristik yang sangat menonjol. Hal ini konsisten dengan analisis karakteristik klaster yang menunjukkan Klaster 3 sebagai kelompok paling tertinggal, yang berarti faktor-faktor seperti IPM, Pengeluaran, dan PDRB berada pada ekstremitas yang jauh berbeda dibandingkan Klaster 1 dan Klaster 2.
Analisis data indikator pembangunan dan kemiskinan di Indonesia menunjukkan adanya disparitas regional yang ekstrem dan berhasil dikelompokkan menjadi tiga klaster yang distingtif. Secara statistik deskriptif, variabel seperti Rata-rata Lama Sekolah (\(X_1\)) dan IPM (\(X_3\)) cenderung stabil, namun variabel ekonomi makro, khususnya PDRB (\(X_9\)), memiliki kemiringan positif yang sangat kuat, menegaskan ketimpangan kekayaan yang didominasi oleh segelintir wilayah yang sangat maju. Uji asumsi juga memvalidasi bahwa data sudah layak untuk dilanjutkan ke analisis klaster.
Metode Silhouette secara statistik memvalidasi bahwa tiga klaster (k=3) adalah pembagian yang paling optimal (Silhouette Width ≈0.32), yang secara visual menunjukkan pemisahan yang jelas, terutama pada Klaster 3 (Tertinggal) yang terpisah jauh di sumbu Dimensi 1. Klaster ini secara geografis didominasi oleh kabupaten/kota di Papua dan Nusa Tenggara Timur, serta wilayah pedalaman lainnya. Klaster 3 dicirikan oleh tingkat IPM, pendidikan, dan akses layanan dasar terendah, namun memiliki Tingkat Partisipasi Angkatan Kerja (TPAK) dan Tingkat Pengangguran Terbuka (TPT) yang tertinggi. Karakteristik ini menunjukkan adanya tekanan ekonomi masif di mana banyak penduduk harus bekerja, namun rendahnya kualitas hidup dan ketersediaan lapangan kerja yang layak menghambat peningkatan kesejahteraan.
Sebaliknya, Klaster 1 (Sejahtera) yang didominasi oleh pusat metropolitan di Indonesia Barat (seperti DKI Jakarta dan sebagian Jawa Barat) menunjukkan indikator pembangunan dan PDRB yang sangat tinggi, dibarengi dengan TPT yang rendah. Temuan ini menegaskan bahwa strategi intervensi pembangunan harus bersifat spesifik klaster. Klaster 3 memerlukan fokus pada peningkatan infrastruktur dasar (\(X_5\), \(X_6\)), kualitas pendidikan (\(X_1\)), dan penciptaan lapangan kerja produktif; sementara Klaster 1 dapat menjadi benchmark atau sumber daya ekonomi untuk mendukung pembangunan di klaster yang lebih tertinggal.
Strategi intervensi pembangunan harus bersifat spesifik klaster, di mana Klaster 3 (Tertinggal) yang dicirikan oleh IPM, pendidikan, dan layanan dasar terendah, namun TPAK tinggi memerlukan prioritas investasi pada infrastruktur dasar (sanitasi dan air minum), peningkatan Rata-rata Lama Sekolah, dan penciptaan lapangan kerja produktif untuk mengubah tekanan kerja menjadi kesejahteraan; sementara Klaster 1 (Sejahtera) harus berfungsi sebagai benchmark pembangunan dan sumber daya fiskal, dengan kebijakan yang mendorong transfer fiskal yang ditargetkan untuk proyek pembangunan Klaster 3, dan Klaster 2 (Menengah) difokuskan pada penguatan kualitas hidup dan pemerataan investasi untuk mencegah kemerosotan. Secara keseluruhan, pemerintah perlu menerapkan kebijakan alokasi dana yang berbasis klaster dan memantau pergerakan klastering secara berkala untuk menjamin intervensi yang efektif dan spesifik, alih-alih pendekatan pembangunan yang bersifat umum.
Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2010). Multivariate data analysis (7th ed.). Pearson Prentice Hall.
Walpole, R. E. (1995). Pengantar statistika (Edisi ke-3). Gramedia Pustaka Utama.
Nasution, I., Windarto, A. P., & Fauzan, M. (2020). Penerapan algoritma K-means dalam pengelompokan data penduduk miskin menurut provinsi. Jurnal Inovasi Pendidikan dan Teknologi Informasi
Ermila. (2020). Klasifikasi Tingkat Kemiskinan di Indonesia [Dataset]. Kaggle. [https://www.kaggle.com/datasets/ermila/klasifikasi-tingkat-kemiskinan-di-indonesia]
Novie, A. (n.d.). K-Means Clustering Analysis. RPubs. [https://rpubs.com/anggitnoviee/k-means]
Hilwa, A. (2025). Analisis Cluster Non-Hierarki (K-Means) pada Data Sarana Kesehatan Provinsi di Indonesia. RPubs. https://rpubs.com/hilwahwd/1374644