UJIAN AKHIR PRAKTIKUM
PRAKTIKUM ANALISIS MULTIVARIAT I
ANALISIS KLUSTER PROVINSI DI INDONESIA BERDASARKAN INDIKATOR KESENJANGAN SOSIAL-EKONOMI MENGGUNAKAN METODE K-MEANS CLUSTERING
Oleh:
Fairuz Arfan Abhipraya (235090501111060)
Asisten Praktikum:
1. Patih Karina Pramudita A.
2. Gisela Azahra P.
3. Bayyan Firdaus Abada
LABORATORIUM STATISTIKA
UNIVERSITAS BRAWIJAYA
2025
BAB I
PENDAHULUAN
1.1. Latar Belakang Kasus
Kasus kesenjangan sosial di Indonesia makin tahun makin meningkat
dikarenakan keberagaman sumber daya manusia tiap daerah dari Sabang
sampai Merauke. Kesenjangan sosial merupakan perbedaan mencolok dalam
hal akses terhadap sumber daya, kesempatan, dan layanan dasar seperti
pendidikan, kesehatan, dan pekerjaan di antara kelompok Masyarakat
(Fabela et al., 2024). Kesenjangan sering kali dipicu oleh dinamika
sosial-ekonomi yang berlangsung dalam masyarakat. Dalam masyarakat,
kesenjangan sosial dan ekonomi seringkali tampak dalam berbagai aspek
kehidupan, seperti pendidikan, kesehatan, akses terhadap pekerjaan, dan
kekayaan harta benda. Tidak jarang, kesenjangan ini menjadi sumber
ketidakadilan dan konflik sosial yang dapat mengancam stabilitas suatu
negara (Aliffah et al., 2023). Oleh karena itu, penanganan kesenjangan
sosial dan ekonomi menjadi penting dalam konteks hukum tata negara.
Meskipun dilakukan pemekaran provinsi baru di Indonesia menjadi 34
provinsi agar pemerintah pusat dapat mempermudah pemerintah daerah untuk
menangani daerahnya menjadi lebih terfokus, kasus kesenjangan sosial
masih tetap merusak fondasi masyarakat dan perekonomian. Kesenjangan
sosial dapat memicu kesombongan yang memicu tingginya kriminalitas yang
diakibatkan dari kecemburuan sosial (Fabela et al., 2024). Untuk
mengurangi kasus kesenjangan sosial, diperlukan strategi agar pemerintah
daerah dapat membuat kebijakan yang sukses menurunkan kasus kesenjangan
sosial agar kriminalitas suatu daerah juga ikut menurun. Selain itu,
pemerintah juga harus melakukan upaya untuk memperkuat akses masyarakat
terhadap peluang ekonomi dan pendidikan serta memberikan perlindungan
kepada kelompok-kelompok yang rentan terhadap kemiskinan dan
marginalisasi sosial (Rasya et al., 2024). Namun, setiap provinsi di
Indonesia memiliki penyebab kesenjangan sosial yang berbeda satu sama
lain. Untuk itu, dipilih faktor-faktor dalam setiap provinsi yang
bersumber dari BPS seperti Persentase Penduduk Miskin, Jumlah Cerai,
Jumlah Kota, dan IPM agar pemerintah pusat dapat membuat kebijakan yang
berkaitan dalam penanganan kesenjangan sosial melalui pengelompokkan
sesuai dengan kesamaan kriteria.
1.2. Cuplikan Data
| PROVINSI | PERS.PEND.MISKIN | JML.CERAI | JML.KOTA | IPM |
|---|---|---|---|---|
| ACEH | 15.43 | 4171 | 5 | 71.99 |
| SUMATERA UTARA | 9.14 | 12809 | 8 | 71.77 |
| SUMATERA BARAT | 6.56 | 5291 | 7 | 72.38 |
| RIAU | 7.04 | 6252 | 2 | 72.71 |
| JAMBI | 7.97 | 3883 | 2 | 71.29 |
| SUMATERA SELATAN | 12.98 | 6402 | 4 | 70.01 |
| BENGKULU | 15.30 | 3104 | 1 | 71.40 |
| LAMPUNG | 12.76 | 11227 | 2 | 69.69 |
| KEP. BANGKA BELITUNG | 4.89 | 2001 | 1 | 71.47 |
| KEP. RIAU | 6.13 | 0 | 2 | 75.59 |
| DKI JAKARTA | 4.69 | 12098 | 5 | 80.77 |
| JAWA BARAT | 8.43 | 37503 | 9 | 72.09 |
| JAWA TENGAH | 11.84 | 65755 | 6 | 71.87 |
| DI YOGYAKARTA | 12.80 | 5288 | 1 | 79.97 |
| JAWA TIMUR | 11.46 | 61870 | 9 | 71.71 |
| BANTEN | 6.63 | 10401 | 4 | 72.45 |
| BALI | 4.45 | 0 | 1 | 75.50 |
| NUSA TENGGARA BARAT | 14.23 | 4855 | 2 | 68.25 |
| NUSA TENGGARA TIMUR | 21.21 | 451 | 1 | 65.19 |
| KALIMANTAN BARAT | 7.24 | 4249 | 2 | 67.66 |
| KALIMANTAN TENGAH | 5.26 | 1595 | 1 | 71.05 |
| KALIMANTAN SELATAN | 4.83 | 3410 | 2 | 70.91 |
| KALIMANTAN TIMUR | 6.64 | 7012 | 3 | 76.24 |
| KALIMANTAN UTARA | 7.41 | 0 | 1 | 70.63 |
| SULAWESI UTARA | 7.78 | 1298 | 4 | 72.93 |
| SULAWESI TENGAH | 13.06 | 1610 | 1 | 69.55 |
| SULAWESI SELATAN | 8.99 | 12697 | 3 | 71.93 |
| SULAWESI TENGGARA | 11.69 | 2768 | 2 | 71.45 |
| GORONTALO | 15.59 | 1452 | 1 | 68.68 |
| SULAWESI BARAT | 11.50 | 0 | 0 | 66.11 |
| MALUKU | 17.99 | 225 | 2 | 69.49 |
| MALUKU UTARA | 6.97 | 476 | 2 | 68.49 |
| PAPUA BARAT | 21.70 | 0 | 1 | 65.09 |
| PAPUA | 26.80 | 1524 | 1 | 60.44 |
1.3. Latar Belakang Metode
Pemilihan metode analisis cluster non-hierarki, khususnya algoritma K-Means, dalam penelitian ini didasarkan pada kesesuaian karakteristik metode dengan tujuan pengelompokan 34 provinsi di Indonesia. Algoritma K-Means merupakan algoritma non hierarki yang berasal dari metode data clustering yang dimulai dengan pembentukan partisi cluster diawal kemudian secara iteraktif partisi cluster ini diperbaiki hingga tidak terjadi perubahan yang signifikan pada partisi cluster (Sulistiyawati, 2021). Algoritma K-Means dipilih karena kemampuannya dalam mengelompokkan sejumlah objek seperti provinsi ke dalam sejumlah cluster yang telah ditentukan sebelumnya sehingga peneliti dapat mengontrol granularitas analisis sesuai dengan kebutuhan kebijakan. Selain itu, K-Means menghasilkan cluster yang memiliki karakteristik homogen secara internal dan heterogen secara eksternal sehingga provinsi-provinsi dalam satu cluster akan sangat mirip berdasarkan pesentase kemiskinan, jumlah perceraian, jumlah kota, dan IPM-nya, sementara berbeda jelas dengan provinsi di cluster lain.
1.4. Tinjauan Pustaka Metode
Prasetyo (2012) mengatakan bahwa metode K-Means ini mempartisi data
ke dalam kelompok sehingga data berkarakteristik sama dimasukan kedalam
satu kelompok yang sama dan data yang berkarakteristik berbeda
dikelompokkan kedalam kelompok yang lain. Data yang memiliki perwakilan
persamaan nilai dalam satu kelompok dan data yang memiliki perbedaan
kelompok yang lain sehingga memungkinkan pengelompokan data yang berbeda
yang memiliki tingkat variasi kecil. Prinsip utama dari teknik ini
adalah menyusun K buah partisi/pusat massa (centroid)/rata-rata dari
sekumpulan data (Sulistiyawati, 2021). Adapun tujuan dari pengelompokan
data ini adalah untuk meminimalkan fungsi objektif dalam proses
pengelompokan dan pada umumnya meminimalkan variasi dalam suatu
kelompok, serta memaksimalkan variasi antar kelompok. Menurut
Sulistiyawati (2021), langkah-langkah melakukan clustering dengan metode
K-Means adalah sebagai berikut.
1. Tentukan nilai k sebagai jumlah
cluster yang ingin dibentuk.
2. Inisialisasi k pusat cluster ini
bisa dilakukan dengan berbagai cara, namun yang paling sering dilakukan
adalah dengan cara random yang diambil dari data yang ada.
3.
Menghitung jarak setiap data input terhadap masing – masing centroid
menggunakan rumus jarak Euclidean (Euclidean Distance) hingga ditemukan
jarak yang paling dekat dari setiap data dengan centroid. Berikut adalah
persamaan Euclidian Distance : \[
De = \sqrt{(x_i - s_i)^2 + (y_i - t_i)^2}
\] dimana :
De adalah Euclidean Distance.
i adalah
banyaknya objek.
(x,y) merupakan koordinat object.
(s,t)
merupakan koordinat centroid.
4. Mengklasifikasikan setiap data
berdasarkan kedekatannya dengan centroid (jarak terkecil).
5.
Memperbaharui nilai centroid. Nilai centroid baru di peroleh dari
rata-rata cluster yang bersangkutan dengan menggunakan rumus: \[
v_{ij} = \frac{1}{N_i} \sum_{k=1}^{N_i} X_{kj}
\] dimana :
vij adalah centroid/ rata-rata cluster ke-i
untuk variable ke-j.
Ni adalah jumlah data yang menjadi anggota
cluster ke-i.
i,k adalah indeks dari cluster.
j adalah indeks
dari variabel.
xkj adalah nilai data ke-k yang ada di dalam cluster
tersebut untuk variable ke-j.
6. Melakukan perulangan dari langkah
2 hingga 5, sampai anggota tiap cluster tidak ada yang berubah.
1.5. Tujuan yang Ingin Diraih
Tujuan yang akan diraih dalam penelitian ini yaitu sebagai berikut.
1) Mengelompokkan 34 provinsi di Indonesia ke dalam cluster-cluster yang
homogen berdasarkan empat indikator sosial-ekonomi utama, yaitu
Persentase Penduduk Miskin, Jumlah Cerai, Jumlah Kota, dan Indeks
Pembangunan Manusia (IPM). 2) Menganalisis karakteristik unik dari
setiap cluster yang terbentuk untuk mengidentifikasi pola dan tantangan
yang dihadapi oleh provinsi-provinsi dalam cluster tersebut.
3) Menyediakan basis evidence-based bagi pemerintah pusat dan daerah
untuk merumuskan kebijakan yang tepat sasaran, efisien, dan kontekstual
dalam menangani kesenjangan sosial, serta rekomendasi yang disesuaikan
dengan profil spesifik setiap cluster provinsi.
BAB II
SOURCE CODE
2.1. Library dan Kegunaannya
| Syntax R | Kegunaan |
|---|---|
|
library(readxl)
|
Untuk membaca dan mengimpor data dari file Excel. |
|
library(dplyr)
|
Untuk memanipulasi data seperti memilih, menyaring, mengurutkan, dan membuat variabel baru. |
|
library(ggplot2)
|
Untuk membuat visualisasi data dengan pendekatan berbasis lapisan (grammar of graphics). |
|
library(factoextra)
|
Untuk mengekstraksi serta memvisualisasikan hasil analisis multivariat, seperti analisis cluster dan reduksi dimensi. |
|
library(psych)
|
Untuk melakukan berbagai analisis statistik dalam psikometri dan ilmu sosial, termasuk statistik deskriptif dan analisis faktor. |
|
library(gridExtra)
|
Untuk menggabungkan beberapa plot ggplot menjadi satu layout yang rapi dan teratur. |
Table: Tabel Library untuk Analisis Data
2.2. Source Code dan Penjelasannya
| Syntax R | Kegunaan |
|---|---|
|
data <- read_excel(“C:/Users/LENOVO/Downloads/LAPRAK
ANMUL/DATACLUSTER.xlsx”)
|
Membaca file Excel dari path yang ditentukan dan menyimpannya ke dalam
objek data.
|
|
data_num <- data %>% dplyr::select(PERS.PEND.MISKIN, JML.CERAI,
JML.KOTA, IPM)
|
Memilih hanya kolom numerik yang akan digunakan untuk analisis cluster dari dataset awal. |
|
summary(data_num)
|
Menampilkan statistik ringkasan untuk setiap variabel dalam dataset numerik. |
|
p1 <- ggplot(data_num, aes(x = PERS.PEND.MISKIN)) +
geom_histogram(aes(y = ..density..), bins = 15, fill = “lightblue”,
color = “black”) + geom_density(alpha = 0.2, fill = “blue”) + labs(title
= “Distribusi Persentase Penduduk Miskin”, x = “Persentase (%)”, y =
“Density”) + theme_minimal()
|
Membuat histogram dengan kurva density untuk melihat distribusi persentase penduduk miskin. |
|
p2 <- ggplot(data_num, aes(x = JML.CERAI)) + geom_histogram(aes(y =
..density..), bins = 15, fill = “lightgreen”, color = “black”) +
geom_density(alpha = 0.2, fill = “green”) + labs(title = “Distribusi
Jumlah Perceraian”, x = “Jumlah Kasus”, y = “Density”) + theme_minimal()
|
Membuat histogram dengan kurva density untuk melihat distribusi jumlah perceraian. |
|
p3 <- ggplot(data_num, aes(x = JML.KOTA)) + geom_histogram(aes(y =
..density..), bins = 8, fill = “lightcoral”, color = “black”) +
geom_density(alpha = 0.2, fill = “red”) + labs(title = “Distribusi
Jumlah Kota”, x = “Jumlah Kota”, y = “Density”) + theme_minimal()
|
Membuat histogram dengan kurva density untuk melihat distribusi jumlah kota. |
|
p4 <- ggplot(data_num, aes(x = IPM)) + geom_histogram(aes(y =
..density..), bins = 15, fill = “lightgoldenrod”, color = “black”) +
geom_density(alpha = 0.2, fill = “orange”) + labs(title = “Distribusi
Indeks Pembangunan Manusia”, x = “IPM”, y = “Density”) + theme_minimal()
|
Membuat histogram dengan kurva density untuk melihat distribusi Indeks Pembangunan Manusia. |
|
grid.arrange(p1, p2, p3, p4, ncol = 2)
|
Menyusun keempat plot histogram tersebut dalam 2 kolom. |
|
korelasi <- cor(data_num, method = ‘pearson’)
|
Menghitung korelasi untuk uji multikolinearitas. |
|
datastand <- scale(data_num)
|
Melakukan standarisasi pada data numerik. |
|
fviz_nbclust(datastand, kmeans, method = “silhouette”) + ggtitle(“Metode
Silhouette - Jumlah Cluster Optimal”)
|
Menentukan jumlah cluster optimal menggunakan metode silhouette. |
|
k_optimal <- 2
|
Cluster optimal ditentukan menjadi 2. |
|
set.seed(123)
|
Menetapkan seed untuk replikasi hasil. |
|
kmeans_res <- kmeans(datastand, centers = k_optimal, nstart = 25)
|
Menjalankan algoritma K-Means. |
|
table(kmeans_res$cluster)
|
Menampilkan frekuensi anggota tiap cluster. |
|
fviz_cluster(kmeans_res, data = datastand, ellipse.type = “euclid”,
star.plot = TRUE, repel = TRUE, ggtheme = theme_minimal(), main = “Hasil
Clustering K-Means”)
|
Visualisasi hasil pengelompokan. |
|
data\(Cluster_KMeans <-
as.factor(kmeans_res\)cluster)
|
Menambahkan label cluster ke dataset asli. |
|
provinsi_names <- data$PROVINSI
|
Mengekstrak nama provinsi. |
|
hasil_akhir <- data.frame(No = 1:nrow(data), Provinsi =
provinsi_names, Cluster = data\(Cluster_KMeans, PERS.PEND.MISKIN =
data_num\)PERS.PEND.MISKIN, JML.CERAI = data_num\(JML.CERAI, JML.KOTA = data_num\)JML.KOTA,
IPM = data_num$IPM)
|
Membuat tabel lengkap hasil clustering. |
Table: Tabel Source Code untuk Analisis Data
BAB III
HASIL DAN PEMBAHASAN
3.1. Hipotesis Penelitian
H1: Terdapat pengelompokan provinsi di Indonesia di mana satu cluster akan menunjukkan kemiripan profil sosial-ekonomi (berdasarkan kemiskinan, perceraian, jumlah kota, dan IPM), sementara antar cluster akan menunjukkan perbedaan yang jelas.
H2: Terdapat pengelompokan provinsi yang terkonsentrasi secara regional (berpola spasial), yang tidak semata-mata diakibatkan oleh variabel sosial-ekonomi, melainkan oleh faktor geografis atau kewilayahan.
3.2. Hasil Analisis Data
Library dan Input Data
## Loading required package: ggplot2
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
##
## Attaching package: 'psych'
## The following objects are masked from 'package:ggplot2':
##
## %+%, alpha
##
## Attaching package: 'gridExtra'
## The following object is masked from 'package:dplyr':
##
## combine
Statistika Deskriptif
## PERS.PEND.MISKIN JML.CERAI JML.KOTA IPM
## Min. : 4.450 Min. : 0 Min. :0.000 Min. :60.44
## 1st Qu.: 6.723 1st Qu.: 1336 1st Qu.:1.000 1st Qu.:69.50
## Median : 9.065 Median : 3646 Median :2.000 Median :71.42
## Mean :10.806 Mean : 8579 Mean :2.882 Mean :71.08
## 3rd Qu.:13.040 3rd Qu.: 6860 3rd Qu.:4.000 3rd Qu.:72.31
## Max. :26.800 Max. :65755 Max. :9.000 Max. :80.77
Histogram untuk setiap variabel
Standarisasi Data
## PERS.PEND.MISKIN JML.CERAI JML.KOTA IPM
## [1,] 0.8543170 -0.2819365 0.86997045 0.232994717
## [2,] -0.3077019 0.2705848 2.10242859 0.176611654
## [3,] -0.7843329 -0.2102968 1.69160921 0.332946511
## [4,] -0.6956573 -0.1488274 -0.36248769 0.417521105
## [5,] -0.5238485 -0.3003582 -0.36248769 0.053594061
## [6,] 0.4017023 -0.1392328 0.45915107 -0.274452851
## [7,] 0.8303007 -0.3501861 -0.77330707 0.081785593
## [8,] 0.3610594 0.1693937 -0.36248769 -0.356464580
## [9,] -1.0928498 -0.4207385 -0.77330707 0.099725658
## [10,] -0.8637714 -0.5487305 -0.36248769 1.155626659
## [11,] -1.1297979 0.2251064 0.86997045 2.483191509
## [12,] -0.4388678 1.8501125 2.51324797 0.258623382
## [13,] 0.1910979 3.6572243 1.28078983 0.202240319
## [14,] 0.3684490 -0.2104887 -0.77330707 2.278162189
## [15,] 0.1208965 3.4087241 2.51324797 0.161234455
## [16,] -0.7714010 0.1165594 0.45915107 0.350886576
## [17,] -1.1741357 -0.5487305 -0.77330707 1.132560860
## [18,] 0.6326282 -0.2381851 -0.36248769 -0.725517357
## [19,] 1.9221181 -0.5198827 -0.77330707 -1.509754507
## [20,] -0.6587092 -0.2769473 -0.36248769 -0.876726480
## [21,] -1.0244958 -0.4467079 -0.77330707 -0.007914735
## [22,] -1.1039342 -0.3306131 -0.36248769 -0.043794866
## [23,] -0.7695536 -0.1002147 0.04833169 1.322212982
## [24,] -0.6273033 -0.5487305 -0.77330707 -0.115555128
## [25,] -0.5589492 -0.4657052 0.45915107 0.473904168
## [26,] 0.4164816 -0.4457484 -0.77330707 -0.392344711
## [27,] -0.3354130 0.2634208 0.04833169 0.217617518
## [28,] 0.1633868 -0.3716780 -0.36248769 0.094599925
## [29,] 0.8838755 -0.4558547 -0.77330707 -0.615314097
## [30,] 0.1282861 -0.5487305 -1.18412645 -1.273970789
## [31,] 1.3272531 -0.5343386 -0.36248769 -0.407721910
## [32,] -0.7085892 -0.5182836 -0.36248769 -0.664008560
## [33,] 2.0126411 -0.5487305 -0.77330707 -1.535383172
## [34,] 2.9548185 -0.4512493 -0.77330707 -2.727116098
## attr(,"scaled:center")
## PERS.PEND.MISKIN JML.CERAI JML.KOTA IPM
## 10.805588 8578.735294 2.882353 71.080882
## attr(,"scaled:scale")
## PERS.PEND.MISKIN JML.CERAI JML.KOTA IPM
## 5.412993 15633.786614 2.434160 3.901881
Uji KMO
Analisis Cluster Non Hierarki dengan K-Means
## K-means clustering with 2 clusters of sizes 28, 6
##
## Cluster means:
## PERS.PEND.MISKIN JML.CERAI JML.KOTA IPM
## 1 0.08388236 -0.3286234 -0.3918319 -0.1291017
## 2 -0.39145102 1.5335759 1.8285490 0.6024746
##
## Clustering vector:
## [1] 1 2 2 1 1 1 1 1 1 1 2 2 2 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
##
## Within cluster sum of squares by cluster:
## [1] 64.44391 22.29974
## (between_SS / total_SS = 34.3 %)
##
## Available components:
##
## [1] "cluster" "centers" "totss" "withinss" "tot.withinss"
## [6] "betweenss" "size" "iter" "ifault"
##
## 1 2
## 28 6
Visualisasi K-Means
Hasil Clustering 34 Provinsi
## No Provinsi Cluster PERS.PEND.MISKIN JML.CERAI JML.KOTA IPM
## 1 1 ACEH 1 15.43 4171 5 71.99
## 2 2 SUMATERA UTARA 2 9.14 12809 8 71.77
## 3 3 SUMATERA BARAT 2 6.56 5291 7 72.38
## 4 4 RIAU 1 7.04 6252 2 72.71
## 5 5 JAMBI 1 7.97 3883 2 71.29
## 6 6 SUMATERA SELATAN 1 12.98 6402 4 70.01
## 7 7 BENGKULU 1 15.30 3104 1 71.40
## 8 8 LAMPUNG 1 12.76 11227 2 69.69
## 9 9 KEP. BANGKA BELITUNG 1 4.89 2001 1 71.47
## 10 10 KEP. RIAU 1 6.13 0 2 75.59
## 11 11 DKI JAKARTA 2 4.69 12098 5 80.77
## 12 12 JAWA BARAT 2 8.43 37503 9 72.09
## 13 13 JAWA TENGAH 2 11.84 65755 6 71.87
## 14 14 DI YOGYAKARTA 1 12.80 5288 1 79.97
## 15 15 JAWA TIMUR 2 11.46 61870 9 71.71
## 16 16 BANTEN 1 6.63 10401 4 72.45
## 17 17 BALI 1 4.45 0 1 75.50
## 18 18 NUSA TENGGARA BARAT 1 14.23 4855 2 68.25
## 19 19 NUSA TENGGARA TIMUR 1 21.21 451 1 65.19
## 20 20 KALIMANTAN BARAT 1 7.24 4249 2 67.66
## 21 21 KALIMANTAN TENGAH 1 5.26 1595 1 71.05
## 22 22 KALIMANTAN SELATAN 1 4.83 3410 2 70.91
## 23 23 KALIMANTAN TIMUR 1 6.64 7012 3 76.24
## 24 24 KALIMANTAN UTARA 1 7.41 0 1 70.63
## 25 25 SULAWESI UTARA 1 7.78 1298 4 72.93
## 26 26 SULAWESI TENGAH 1 13.06 1610 1 69.55
## 27 27 SULAWESI SELATAN 1 8.99 12697 3 71.93
## 28 28 SULAWESI TENGGARA 1 11.69 2768 2 71.45
## 29 29 GORONTALO 1 15.59 1452 1 68.68
## 30 30 SULAWESI BARAT 1 11.50 0 0 66.11
## 31 31 MALUKU 1 17.99 225 2 69.49
## 32 32 MALUKU UTARA 1 6.97 476 2 68.49
## 33 33 PAPUA BARAT 1 21.70 0 1 65.09
## 34 34 PAPUA 1 26.80 1524 1 60.44
Analisis Karakteristik Setiap Cluster
## Cluster PERS.PEND.MISKIN JML.CERAI JML.KOTA IPM
## 1 1 11.259643 3441.107 1.928571 70.57714
## 2 2 8.686667 32554.333 7.333333 73.43167
Asumsi Non Multikolinearitas
## PERS.PEND.MISKIN JML.CERAI JML.KOTA IPM
## PERS.PEND.MISKIN 1.0000000 -0.0539253 -0.2084530 -0.6490656
## JML.CERAI -0.0539253 1.0000000 0.7105089 0.1549704
## JML.KOTA -0.2084530 0.7105089 1.0000000 0.2878291
## IPM -0.6490656 0.1549704 0.2878291 1.0000000
3.4. Pembahasan Hasil Analisis Data
Asumsi Non Multikolinearitas
Dikarenakan tidak terdapat korelasi antar variabel yang melebih nilai 0.8, maka terbukti bahwa data tidak terindikasi kasus multikolinearitas. Karena asumsi terpenuhi, maka analisis dapat dilanjut ke tahap berikutnya.
Statistika Deskriptif
Data keempat variabel menunjukkan karakteristik yang beragam dengan distribusi tidak simetris. Persentase penduduk miskin rata-rata 10.81% namun memiliki rentang sangat lebar (4.45-26.80%), menunjukkan ketimpangan antar provinsi. Jumlah perceraian memiliki mean 8,579 kasus tetapi distribusi sangat miring ke kanan dengan nilai maksimum 65,755 yang jauh di atas kuartil ketiga, mengindikasikan beberapa provinsi memiliki angka perceraian ekstrem tinggi. Jumlah kota rata-rata 2.88 dengan separuh provinsi memiliki 1-2 kota saja, mencerminkan konsentrasi pembangunan urban yang tidak merata. IPM relatif terkumpul di kisaran 69.50-72.31 dengan nilai minimum 60.44 (Papua) dan maksimum 80.77 (DKI Jakarta), mengonfirmasi kesenjangan kualitas hidup yang signifikan.
Histogram untuk setiap variabel
Berdasarkan visualisasi distribusi keempat variabel, terlihat pola yang mencerminkan kesenjangan antar provinsi di Indonesia. Distribusi persentase penduduk miskin menunjukkan sebaran yang cenderung normal dengan sedikit right-skew, mengindikasikan bahwa sebagian besar provinsi terkonsentrasi pada kemiskinan 5-15% namun beberapa provinsi memiliki tingkat kemiskinan ekstrem hingga 25%. Distribusi jumlah perceraian sangat right-skewed dengan konsentrasi pada nilai rendah (0-10,000 kasus) tetapi terdapat outlier ekstrem yang menarik mean ke nilai tinggi, menandakan ketimpangan tajam dalam angka perceraian dimana sebagian kecil provinsi memiliki angka yang sangat tinggi. Distribusi jumlah kota bersifat multimodal dengan puncak pada 1-2 kota dan 7-9 kota, merefleksikan polarisasi antara provinsi dengan wilayah urban terbatas versus provinsi dengan banyak pusat kota. Sementara distribusi IPM relatif normal dengan sedikit left-skew, menunjukkan bahwa sebagian besar provinsi berada pada rentang IPM 68-74 dengan beberapa provinsi memiliki IPM sangat rendah (<65) dan sangat tinggi (>78), mengonfirmasi adanya kesenjangan kualitas hidup yang sistematis.
Uji KMO
Berdasarkan hasil Uji KMO, data memenuhi kelayakan untuk analisis cluster dengan nilai KMO overall ≥ 0.7 yang menunjukkan kecukupan sampling adequate. Plot silhouette width mengonfirmasi bahwa 2 cluster merupakan jumlah optimal dengan nilai silhouette average tertinggi, menunjukkan bahwa pembagian menjadi dua kelompok provinsi menghasilkan separasi dan kohesi internal cluster yang paling baik dibandingkan opsi jumlah cluster lainnya.
3.5. Interpretasi Hasil Analisis Data
Hasil K-Means Clustering menghasilkan 2 cluster dengan karakteristik berbeda. Cluster 1 (28 provinsi) menunjukkan profil kemiskinan lebih tinggi (11.26%), perceraian rendah (3442 kasus), wilayah kota terbatas (2 kota), dan IPM rendah (70.58). Cluster 2 (6 provinsi) memiliki kemiskinan lebih rendah (8.69%), perceraian sangat tinggi (32555 kasus), wilayah kota lebih banyak (8 kota), dan IPM lebih baik (80.77).
BAB IV
PENUTUP
4.1. Kesimpulan
Berdasarkan hasil analisis K-Means clustering, tujuan penelitian telah tercapai dengan teridentifikasinya dua cluster provinsi yang homogen berdasarkan empat indikator sosial-ekonomi. Cluster 1 terdiri dari 28 provinsi yang dicirikan oleh tingkat kemiskinan relatif lebih tinggi (11.26%), angka perceraian rendah (3,442 kasus), jumlah kota terbatas (2 kota), dan IPM lebih rendah (70.58), sementara cluster 2 mencakup 6 provinsi dengan karakteristik berlawanan yaitu kemiskinan lebih rendah (8.69%), perceraian sangat tinggi (32,555 kasus), jumlah kota banyak (8 kota), dan IPM superior (80.77). Pengelompokan ini berhasil memetakan pola kesenjangan sosial-ekonomi yang jelas antar wilayah sekaligus menyediakan dasar empiris bagi formulasi kebijakan yang lebih terarah sesuai karakteristik masing-masing cluster.
4.2. Saran
Berdasarkan karakteristik unik masing-masing cluster, rekomendasi kebijakan yang tepat sasaran diperlukan untuk mengatasi kesenjangan sosial secara efektif. Untuk cluster 1 (28 provinsi dengan kemiskinan tinggi dan IPM rendah), pemerintah daerah harus memprioritaskan kebijakan yang berfokus pada pengentasan kemiskinan melalui program padat karya, pemberdayaan UMKM, dan perluasan akses infrastruktur dasar serta layanan kesehatan dan pendidikan yang berkualitas. Sebaliknya, untuk cluster 2 (6 provinsi dengan perceraian sangat tinggi dan perkembangan urban pesat), intervensi kebijakan sebaiknya diarahkan pada penguatan ketahanan keluarga melalui layanan konseling, edukasi kehidupan berumah tangga, serta program pemerataan pembangunan untuk mengurangi tekanan sosial dan kesenjangan intra-provinsi. Secara keseluruhan, pemerintah pusat dapat menggunakan hasil clustering ini sebagai dasar alokasi sumber daya dan pendampingan yang berbeda untuk setiap cluster, memastikan bahwa dukungan yang diberikan sesuai dengan akar permasalahan spesifik di masing-masing kelompok provinsi. Untuk penelitian selanjutnya, analisis dapat diperdalam dengan menambahkan variabel lain seperti anggaran daerah, indeks Gini, atau menggunakan metode clustering lain guna memvalidasi dan menyempurnakan pemetaan ini.
DAFTAR PUSTAKA
Fabela, Z. dan Khairunnisa, A. (2024). Dampak Kesenjangan Sosial Di
Indonesia. Jurnal Riset Ilmiah SENTRI 3(6), 3158-3164.
Aliffah, N.
U., Yusrina, K. M., Maharani, M., dan Ratmaningsih, N. (2023). Budaya
korupsi: Ketimpangan sosial ekonomi antar pejabat negara dan masyarakat
akibat pandemi. Jurnal Sosial Dan Sains, 3(12), 1328-1337.
Prasetyo, Eko. (2012). DATA MINING - Konsep dan Aplikasi Menggunakan
MATLAB. Yogyakarta: Penerbit ANDI.
Rasya, H. S. dan Triadi, I.
2024. Akses Keadilan dan Kesenjangan Sosial: Transformasi Melalui Peran
Hukum Tata Negara. Jurnal Hukum dan Keadilan Indonesia 1(4), 1-12.
Sulistiyawati, A. dan Supriyanto, E. (2021). Implementasi Algoritma
K-means Clustring dalam Penetuan Siswa Kelas Unggulan. Jurnal TEKNO
KOMPAK 15(2), 25-36.