UJIAN AKHIR PRAKTIKUM

PRAKTIKUM ANALISIS MULTIVARIAT I

ANALISIS KLUSTER PROVINSI DI INDONESIA BERDASARKAN INDIKATOR KESENJANGAN SOSIAL-EKONOMI MENGGUNAKAN METODE K-MEANS CLUSTERING

Oleh:
Fairuz Arfan Abhipraya (235090501111060)

Asisten Praktikum:
1. Patih Karina Pramudita A.
2. Gisela Azahra P.
3. Bayyan Firdaus Abada

LABORATORIUM STATISTIKA

UNIVERSITAS BRAWIJAYA

2025


BAB I

PENDAHULUAN

1.1. Latar Belakang Kasus

Kasus kesenjangan sosial di Indonesia makin tahun makin meningkat dikarenakan keberagaman sumber daya manusia tiap daerah dari Sabang sampai Merauke. Kesenjangan sosial merupakan perbedaan mencolok dalam hal akses terhadap sumber daya, kesempatan, dan layanan dasar seperti pendidikan, kesehatan, dan pekerjaan di antara kelompok Masyarakat (Fabela et al., 2024). Kesenjangan sering kali dipicu oleh dinamika sosial-ekonomi yang berlangsung dalam masyarakat. Dalam masyarakat, kesenjangan sosial dan ekonomi seringkali tampak dalam berbagai aspek kehidupan, seperti pendidikan, kesehatan, akses terhadap pekerjaan, dan kekayaan harta benda. Tidak jarang, kesenjangan ini menjadi sumber ketidakadilan dan konflik sosial yang dapat mengancam stabilitas suatu negara (Aliffah et al., 2023). Oleh karena itu, penanganan kesenjangan sosial dan ekonomi menjadi penting dalam konteks hukum tata negara.
Meskipun dilakukan pemekaran provinsi baru di Indonesia menjadi 34 provinsi agar pemerintah pusat dapat mempermudah pemerintah daerah untuk menangani daerahnya menjadi lebih terfokus, kasus kesenjangan sosial masih tetap merusak fondasi masyarakat dan perekonomian. Kesenjangan sosial dapat memicu kesombongan yang memicu tingginya kriminalitas yang diakibatkan dari kecemburuan sosial (Fabela et al., 2024). Untuk mengurangi kasus kesenjangan sosial, diperlukan strategi agar pemerintah daerah dapat membuat kebijakan yang sukses menurunkan kasus kesenjangan sosial agar kriminalitas suatu daerah juga ikut menurun. Selain itu, pemerintah juga harus melakukan upaya untuk memperkuat akses masyarakat terhadap peluang ekonomi dan pendidikan serta memberikan perlindungan kepada kelompok-kelompok yang rentan terhadap kemiskinan dan marginalisasi sosial (Rasya et al., 2024). Namun, setiap provinsi di Indonesia memiliki penyebab kesenjangan sosial yang berbeda satu sama lain. Untuk itu, dipilih faktor-faktor dalam setiap provinsi yang bersumber dari BPS seperti Persentase Penduduk Miskin, Jumlah Cerai, Jumlah Kota, dan IPM agar pemerintah pusat dapat membuat kebijakan yang berkaitan dalam penanganan kesenjangan sosial melalui pengelompokkan sesuai dengan kesamaan kriteria.

1.2. Cuplikan Data

Data Cluster Provinsi di Indonesia
PROVINSI PERS.PEND.MISKIN JML.CERAI JML.KOTA IPM
ACEH 15.43 4171 5 71.99
SUMATERA UTARA 9.14 12809 8 71.77
SUMATERA BARAT 6.56 5291 7 72.38
RIAU 7.04 6252 2 72.71
JAMBI 7.97 3883 2 71.29
SUMATERA SELATAN 12.98 6402 4 70.01
BENGKULU 15.30 3104 1 71.40
LAMPUNG 12.76 11227 2 69.69
KEP. BANGKA BELITUNG 4.89 2001 1 71.47
KEP. RIAU 6.13 0 2 75.59
DKI JAKARTA 4.69 12098 5 80.77
JAWA BARAT 8.43 37503 9 72.09
JAWA TENGAH 11.84 65755 6 71.87
DI YOGYAKARTA 12.80 5288 1 79.97
JAWA TIMUR 11.46 61870 9 71.71
BANTEN 6.63 10401 4 72.45
BALI 4.45 0 1 75.50
NUSA TENGGARA BARAT 14.23 4855 2 68.25
NUSA TENGGARA TIMUR 21.21 451 1 65.19
KALIMANTAN BARAT 7.24 4249 2 67.66
KALIMANTAN TENGAH 5.26 1595 1 71.05
KALIMANTAN SELATAN 4.83 3410 2 70.91
KALIMANTAN TIMUR 6.64 7012 3 76.24
KALIMANTAN UTARA 7.41 0 1 70.63
SULAWESI UTARA 7.78 1298 4 72.93
SULAWESI TENGAH 13.06 1610 1 69.55
SULAWESI SELATAN 8.99 12697 3 71.93
SULAWESI TENGGARA 11.69 2768 2 71.45
GORONTALO 15.59 1452 1 68.68
SULAWESI BARAT 11.50 0 0 66.11
MALUKU 17.99 225 2 69.49
MALUKU UTARA 6.97 476 2 68.49
PAPUA BARAT 21.70 0 1 65.09
PAPUA 26.80 1524 1 60.44

1.3. Latar Belakang Metode

Pemilihan metode analisis cluster non-hierarki, khususnya algoritma K-Means, dalam penelitian ini didasarkan pada kesesuaian karakteristik metode dengan tujuan pengelompokan 34 provinsi di Indonesia. Algoritma K-Means merupakan algoritma non hierarki yang berasal dari metode data clustering yang dimulai dengan pembentukan partisi cluster diawal kemudian secara iteraktif partisi cluster ini diperbaiki hingga tidak terjadi perubahan yang signifikan pada partisi cluster (Sulistiyawati, 2021). Algoritma K-Means dipilih karena kemampuannya dalam mengelompokkan sejumlah objek seperti provinsi ke dalam sejumlah cluster yang telah ditentukan sebelumnya sehingga peneliti dapat mengontrol granularitas analisis sesuai dengan kebutuhan kebijakan. Selain itu, K-Means menghasilkan cluster yang memiliki karakteristik homogen secara internal dan heterogen secara eksternal sehingga provinsi-provinsi dalam satu cluster akan sangat mirip berdasarkan pesentase kemiskinan, jumlah perceraian, jumlah kota, dan IPM-nya, sementara berbeda jelas dengan provinsi di cluster lain.

1.4. Tinjauan Pustaka Metode

Prasetyo (2012) mengatakan bahwa metode K-Means ini mempartisi data ke dalam kelompok sehingga data berkarakteristik sama dimasukan kedalam satu kelompok yang sama dan data yang berkarakteristik berbeda dikelompokkan kedalam kelompok yang lain. Data yang memiliki perwakilan persamaan nilai dalam satu kelompok dan data yang memiliki perbedaan kelompok yang lain sehingga memungkinkan pengelompokan data yang berbeda yang memiliki tingkat variasi kecil. Prinsip utama dari teknik ini adalah menyusun K buah partisi/pusat massa (centroid)/rata-rata dari sekumpulan data (Sulistiyawati, 2021). Adapun tujuan dari pengelompokan data ini adalah untuk meminimalkan fungsi objektif dalam proses pengelompokan dan pada umumnya meminimalkan variasi dalam suatu kelompok, serta memaksimalkan variasi antar kelompok. Menurut Sulistiyawati (2021), langkah-langkah melakukan clustering dengan metode K-Means adalah sebagai berikut.
1. Tentukan nilai k sebagai jumlah cluster yang ingin dibentuk.
2. Inisialisasi k pusat cluster ini bisa dilakukan dengan berbagai cara, namun yang paling sering dilakukan adalah dengan cara random yang diambil dari data yang ada.
3. Menghitung jarak setiap data input terhadap masing – masing centroid menggunakan rumus jarak Euclidean (Euclidean Distance) hingga ditemukan jarak yang paling dekat dari setiap data dengan centroid. Berikut adalah persamaan Euclidian Distance : \[ De = \sqrt{(x_i - s_i)^2 + (y_i - t_i)^2} \] dimana :
De adalah Euclidean Distance.
i adalah banyaknya objek.
(x,y) merupakan koordinat object.
(s,t) merupakan koordinat centroid.
4. Mengklasifikasikan setiap data berdasarkan kedekatannya dengan centroid (jarak terkecil).
5. Memperbaharui nilai centroid. Nilai centroid baru di peroleh dari rata-rata cluster yang bersangkutan dengan menggunakan rumus: \[ v_{ij} = \frac{1}{N_i} \sum_{k=1}^{N_i} X_{kj} \] dimana :
vij adalah centroid/ rata-rata cluster ke-i untuk variable ke-j.
Ni adalah jumlah data yang menjadi anggota cluster ke-i.
i,k adalah indeks dari cluster.
j adalah indeks dari variabel.
xkj adalah nilai data ke-k yang ada di dalam cluster tersebut untuk variable ke-j.
6. Melakukan perulangan dari langkah 2 hingga 5, sampai anggota tiap cluster tidak ada yang berubah.

1.5. Tujuan yang Ingin Diraih

Tujuan yang akan diraih dalam penelitian ini yaitu sebagai berikut. 1) Mengelompokkan 34 provinsi di Indonesia ke dalam cluster-cluster yang homogen berdasarkan empat indikator sosial-ekonomi utama, yaitu Persentase Penduduk Miskin, Jumlah Cerai, Jumlah Kota, dan Indeks Pembangunan Manusia (IPM). 2) Menganalisis karakteristik unik dari setiap cluster yang terbentuk untuk mengidentifikasi pola dan tantangan yang dihadapi oleh provinsi-provinsi dalam cluster tersebut.
3) Menyediakan basis evidence-based bagi pemerintah pusat dan daerah untuk merumuskan kebijakan yang tepat sasaran, efisien, dan kontekstual dalam menangani kesenjangan sosial, serta rekomendasi yang disesuaikan dengan profil spesifik setiap cluster provinsi.


BAB II

SOURCE CODE

2.1. Library dan Kegunaannya

Syntax R Kegunaan
library(readxl)
Untuk membaca dan mengimpor data dari file Excel.
library(dplyr)
Untuk memanipulasi data seperti memilih, menyaring, mengurutkan, dan membuat variabel baru.
library(ggplot2)
Untuk membuat visualisasi data dengan pendekatan berbasis lapisan (grammar of graphics).
library(factoextra)
Untuk mengekstraksi serta memvisualisasikan hasil analisis multivariat, seperti analisis cluster dan reduksi dimensi.
library(psych)
Untuk melakukan berbagai analisis statistik dalam psikometri dan ilmu sosial, termasuk statistik deskriptif dan analisis faktor.
library(gridExtra)
Untuk menggabungkan beberapa plot ggplot menjadi satu layout yang rapi dan teratur.

Table: Tabel Library untuk Analisis Data

2.2. Source Code dan Penjelasannya

Syntax R Kegunaan
data <- read_excel(“C:/Users/LENOVO/Downloads/LAPRAK ANMUL/DATACLUSTER.xlsx”)
Membaca file Excel dari path yang ditentukan dan menyimpannya ke dalam objek data.
data_num <- data %>% dplyr::select(PERS.PEND.MISKIN, JML.CERAI, JML.KOTA, IPM)
Memilih hanya kolom numerik yang akan digunakan untuk analisis cluster dari dataset awal.
summary(data_num)
Menampilkan statistik ringkasan untuk setiap variabel dalam dataset numerik.
p1 <- ggplot(data_num, aes(x = PERS.PEND.MISKIN)) + geom_histogram(aes(y = ..density..), bins = 15, fill = “lightblue”, color = “black”) + geom_density(alpha = 0.2, fill = “blue”) + labs(title = “Distribusi Persentase Penduduk Miskin”, x = “Persentase (%)”, y = “Density”) + theme_minimal()
Membuat histogram dengan kurva density untuk melihat distribusi persentase penduduk miskin.
p2 <- ggplot(data_num, aes(x = JML.CERAI)) + geom_histogram(aes(y = ..density..), bins = 15, fill = “lightgreen”, color = “black”) + geom_density(alpha = 0.2, fill = “green”) + labs(title = “Distribusi Jumlah Perceraian”, x = “Jumlah Kasus”, y = “Density”) + theme_minimal()
Membuat histogram dengan kurva density untuk melihat distribusi jumlah perceraian.
p3 <- ggplot(data_num, aes(x = JML.KOTA)) + geom_histogram(aes(y = ..density..), bins = 8, fill = “lightcoral”, color = “black”) + geom_density(alpha = 0.2, fill = “red”) + labs(title = “Distribusi Jumlah Kota”, x = “Jumlah Kota”, y = “Density”) + theme_minimal()
Membuat histogram dengan kurva density untuk melihat distribusi jumlah kota.
p4 <- ggplot(data_num, aes(x = IPM)) + geom_histogram(aes(y = ..density..), bins = 15, fill = “lightgoldenrod”, color = “black”) + geom_density(alpha = 0.2, fill = “orange”) + labs(title = “Distribusi Indeks Pembangunan Manusia”, x = “IPM”, y = “Density”) + theme_minimal()
Membuat histogram dengan kurva density untuk melihat distribusi Indeks Pembangunan Manusia.
grid.arrange(p1, p2, p3, p4, ncol = 2)
Menyusun keempat plot histogram tersebut dalam 2 kolom.
korelasi <- cor(data_num, method = ‘pearson’)
Menghitung korelasi untuk uji multikolinearitas.
datastand <- scale(data_num)
Melakukan standarisasi pada data numerik.
fviz_nbclust(datastand, kmeans, method = “silhouette”) + ggtitle(“Metode Silhouette - Jumlah Cluster Optimal”)
Menentukan jumlah cluster optimal menggunakan metode silhouette.
k_optimal <- 2
Cluster optimal ditentukan menjadi 2.
set.seed(123)
Menetapkan seed untuk replikasi hasil.
kmeans_res <- kmeans(datastand, centers = k_optimal, nstart = 25)
Menjalankan algoritma K-Means.
table(kmeans_res$cluster)
Menampilkan frekuensi anggota tiap cluster.
fviz_cluster(kmeans_res, data = datastand, ellipse.type = “euclid”, star.plot = TRUE, repel = TRUE, ggtheme = theme_minimal(), main = “Hasil Clustering K-Means”)
Visualisasi hasil pengelompokan.
data\(Cluster_KMeans <- as.factor(kmeans_res\)cluster)
Menambahkan label cluster ke dataset asli.
provinsi_names <- data$PROVINSI
Mengekstrak nama provinsi.
hasil_akhir <- data.frame(No = 1:nrow(data), Provinsi = provinsi_names, Cluster = data\(Cluster_KMeans, PERS.PEND.MISKIN = data_num\)PERS.PEND.MISKIN, JML.CERAI = data_num\(JML.CERAI, JML.KOTA = data_num\)JML.KOTA, IPM = data_num$IPM)
Membuat tabel lengkap hasil clustering.

Table: Tabel Source Code untuk Analisis Data


BAB III

HASIL DAN PEMBAHASAN

3.1. Hipotesis Penelitian

H1: Terdapat pengelompokan provinsi di Indonesia di mana satu cluster akan menunjukkan kemiripan profil sosial-ekonomi (berdasarkan kemiskinan, perceraian, jumlah kota, dan IPM), sementara antar cluster akan menunjukkan perbedaan yang jelas.

H2: Terdapat pengelompokan provinsi yang terkonsentrasi secara regional (berpola spasial), yang tidak semata-mata diakibatkan oleh variabel sosial-ekonomi, melainkan oleh faktor geografis atau kewilayahan.

3.2. Hasil Analisis Data

Library dan Input Data

## Loading required package: ggplot2
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
## 
## Attaching package: 'psych'
## The following objects are masked from 'package:ggplot2':
## 
##     %+%, alpha
## 
## Attaching package: 'gridExtra'
## The following object is masked from 'package:dplyr':
## 
##     combine

Statistika Deskriptif

##  PERS.PEND.MISKIN   JML.CERAI        JML.KOTA          IPM       
##  Min.   : 4.450   Min.   :    0   Min.   :0.000   Min.   :60.44  
##  1st Qu.: 6.723   1st Qu.: 1336   1st Qu.:1.000   1st Qu.:69.50  
##  Median : 9.065   Median : 3646   Median :2.000   Median :71.42  
##  Mean   :10.806   Mean   : 8579   Mean   :2.882   Mean   :71.08  
##  3rd Qu.:13.040   3rd Qu.: 6860   3rd Qu.:4.000   3rd Qu.:72.31  
##  Max.   :26.800   Max.   :65755   Max.   :9.000   Max.   :80.77

Histogram untuk setiap variabel


Standarisasi Data

##       PERS.PEND.MISKIN  JML.CERAI    JML.KOTA          IPM
##  [1,]        0.8543170 -0.2819365  0.86997045  0.232994717
##  [2,]       -0.3077019  0.2705848  2.10242859  0.176611654
##  [3,]       -0.7843329 -0.2102968  1.69160921  0.332946511
##  [4,]       -0.6956573 -0.1488274 -0.36248769  0.417521105
##  [5,]       -0.5238485 -0.3003582 -0.36248769  0.053594061
##  [6,]        0.4017023 -0.1392328  0.45915107 -0.274452851
##  [7,]        0.8303007 -0.3501861 -0.77330707  0.081785593
##  [8,]        0.3610594  0.1693937 -0.36248769 -0.356464580
##  [9,]       -1.0928498 -0.4207385 -0.77330707  0.099725658
## [10,]       -0.8637714 -0.5487305 -0.36248769  1.155626659
## [11,]       -1.1297979  0.2251064  0.86997045  2.483191509
## [12,]       -0.4388678  1.8501125  2.51324797  0.258623382
## [13,]        0.1910979  3.6572243  1.28078983  0.202240319
## [14,]        0.3684490 -0.2104887 -0.77330707  2.278162189
## [15,]        0.1208965  3.4087241  2.51324797  0.161234455
## [16,]       -0.7714010  0.1165594  0.45915107  0.350886576
## [17,]       -1.1741357 -0.5487305 -0.77330707  1.132560860
## [18,]        0.6326282 -0.2381851 -0.36248769 -0.725517357
## [19,]        1.9221181 -0.5198827 -0.77330707 -1.509754507
## [20,]       -0.6587092 -0.2769473 -0.36248769 -0.876726480
## [21,]       -1.0244958 -0.4467079 -0.77330707 -0.007914735
## [22,]       -1.1039342 -0.3306131 -0.36248769 -0.043794866
## [23,]       -0.7695536 -0.1002147  0.04833169  1.322212982
## [24,]       -0.6273033 -0.5487305 -0.77330707 -0.115555128
## [25,]       -0.5589492 -0.4657052  0.45915107  0.473904168
## [26,]        0.4164816 -0.4457484 -0.77330707 -0.392344711
## [27,]       -0.3354130  0.2634208  0.04833169  0.217617518
## [28,]        0.1633868 -0.3716780 -0.36248769  0.094599925
## [29,]        0.8838755 -0.4558547 -0.77330707 -0.615314097
## [30,]        0.1282861 -0.5487305 -1.18412645 -1.273970789
## [31,]        1.3272531 -0.5343386 -0.36248769 -0.407721910
## [32,]       -0.7085892 -0.5182836 -0.36248769 -0.664008560
## [33,]        2.0126411 -0.5487305 -0.77330707 -1.535383172
## [34,]        2.9548185 -0.4512493 -0.77330707 -2.727116098
## attr(,"scaled:center")
## PERS.PEND.MISKIN        JML.CERAI         JML.KOTA              IPM 
##        10.805588      8578.735294         2.882353        71.080882 
## attr(,"scaled:scale")
## PERS.PEND.MISKIN        JML.CERAI         JML.KOTA              IPM 
##         5.412993     15633.786614         2.434160         3.901881

Uji KMO


Analisis Cluster Non Hierarki dengan K-Means

## K-means clustering with 2 clusters of sizes 28, 6
## 
## Cluster means:
##   PERS.PEND.MISKIN  JML.CERAI   JML.KOTA        IPM
## 1       0.08388236 -0.3286234 -0.3918319 -0.1291017
## 2      -0.39145102  1.5335759  1.8285490  0.6024746
## 
## Clustering vector:
##  [1] 1 2 2 1 1 1 1 1 1 1 2 2 2 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
## 
## Within cluster sum of squares by cluster:
## [1] 64.44391 22.29974
##  (between_SS / total_SS =  34.3 %)
## 
## Available components:
## 
## [1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
## [6] "betweenss"    "size"         "iter"         "ifault"
## 
##  1  2 
## 28  6

Visualisasi K-Means


Hasil Clustering 34 Provinsi

##    No             Provinsi Cluster PERS.PEND.MISKIN JML.CERAI JML.KOTA   IPM
## 1   1                 ACEH       1            15.43      4171        5 71.99
## 2   2       SUMATERA UTARA       2             9.14     12809        8 71.77
## 3   3       SUMATERA BARAT       2             6.56      5291        7 72.38
## 4   4                 RIAU       1             7.04      6252        2 72.71
## 5   5                JAMBI       1             7.97      3883        2 71.29
## 6   6     SUMATERA SELATAN       1            12.98      6402        4 70.01
## 7   7             BENGKULU       1            15.30      3104        1 71.40
## 8   8              LAMPUNG       1            12.76     11227        2 69.69
## 9   9 KEP. BANGKA BELITUNG       1             4.89      2001        1 71.47
## 10 10            KEP. RIAU       1             6.13         0        2 75.59
## 11 11          DKI JAKARTA       2             4.69     12098        5 80.77
## 12 12           JAWA BARAT       2             8.43     37503        9 72.09
## 13 13          JAWA TENGAH       2            11.84     65755        6 71.87
## 14 14        DI YOGYAKARTA       1            12.80      5288        1 79.97
## 15 15           JAWA TIMUR       2            11.46     61870        9 71.71
## 16 16               BANTEN       1             6.63     10401        4 72.45
## 17 17                 BALI       1             4.45         0        1 75.50
## 18 18  NUSA TENGGARA BARAT       1            14.23      4855        2 68.25
## 19 19  NUSA TENGGARA TIMUR       1            21.21       451        1 65.19
## 20 20     KALIMANTAN BARAT       1             7.24      4249        2 67.66
## 21 21    KALIMANTAN TENGAH       1             5.26      1595        1 71.05
## 22 22   KALIMANTAN SELATAN       1             4.83      3410        2 70.91
## 23 23     KALIMANTAN TIMUR       1             6.64      7012        3 76.24
## 24 24     KALIMANTAN UTARA       1             7.41         0        1 70.63
## 25 25       SULAWESI UTARA       1             7.78      1298        4 72.93
## 26 26      SULAWESI TENGAH       1            13.06      1610        1 69.55
## 27 27     SULAWESI SELATAN       1             8.99     12697        3 71.93
## 28 28    SULAWESI TENGGARA       1            11.69      2768        2 71.45
## 29 29            GORONTALO       1            15.59      1452        1 68.68
## 30 30       SULAWESI BARAT       1            11.50         0        0 66.11
## 31 31               MALUKU       1            17.99       225        2 69.49
## 32 32         MALUKU UTARA       1             6.97       476        2 68.49
## 33 33          PAPUA BARAT       1            21.70         0        1 65.09
## 34 34                PAPUA       1            26.80      1524        1 60.44

Analisis Karakteristik Setiap Cluster

##   Cluster PERS.PEND.MISKIN JML.CERAI JML.KOTA      IPM
## 1       1        11.259643  3441.107 1.928571 70.57714
## 2       2         8.686667 32554.333 7.333333 73.43167
3.3. Pengujian Asumsi

Asumsi Non Multikolinearitas

##                  PERS.PEND.MISKIN  JML.CERAI   JML.KOTA        IPM
## PERS.PEND.MISKIN        1.0000000 -0.0539253 -0.2084530 -0.6490656
## JML.CERAI              -0.0539253  1.0000000  0.7105089  0.1549704
## JML.KOTA               -0.2084530  0.7105089  1.0000000  0.2878291
## IPM                    -0.6490656  0.1549704  0.2878291  1.0000000

3.4. Pembahasan Hasil Analisis Data

Asumsi Non Multikolinearitas

Dikarenakan tidak terdapat korelasi antar variabel yang melebih nilai 0.8, maka terbukti bahwa data tidak terindikasi kasus multikolinearitas. Karena asumsi terpenuhi, maka analisis dapat dilanjut ke tahap berikutnya.

Statistika Deskriptif

Data keempat variabel menunjukkan karakteristik yang beragam dengan distribusi tidak simetris. Persentase penduduk miskin rata-rata 10.81% namun memiliki rentang sangat lebar (4.45-26.80%), menunjukkan ketimpangan antar provinsi. Jumlah perceraian memiliki mean 8,579 kasus tetapi distribusi sangat miring ke kanan dengan nilai maksimum 65,755 yang jauh di atas kuartil ketiga, mengindikasikan beberapa provinsi memiliki angka perceraian ekstrem tinggi. Jumlah kota rata-rata 2.88 dengan separuh provinsi memiliki 1-2 kota saja, mencerminkan konsentrasi pembangunan urban yang tidak merata. IPM relatif terkumpul di kisaran 69.50-72.31 dengan nilai minimum 60.44 (Papua) dan maksimum 80.77 (DKI Jakarta), mengonfirmasi kesenjangan kualitas hidup yang signifikan.

Histogram untuk setiap variabel

Berdasarkan visualisasi distribusi keempat variabel, terlihat pola yang mencerminkan kesenjangan antar provinsi di Indonesia. Distribusi persentase penduduk miskin menunjukkan sebaran yang cenderung normal dengan sedikit right-skew, mengindikasikan bahwa sebagian besar provinsi terkonsentrasi pada kemiskinan 5-15% namun beberapa provinsi memiliki tingkat kemiskinan ekstrem hingga 25%. Distribusi jumlah perceraian sangat right-skewed dengan konsentrasi pada nilai rendah (0-10,000 kasus) tetapi terdapat outlier ekstrem yang menarik mean ke nilai tinggi, menandakan ketimpangan tajam dalam angka perceraian dimana sebagian kecil provinsi memiliki angka yang sangat tinggi. Distribusi jumlah kota bersifat multimodal dengan puncak pada 1-2 kota dan 7-9 kota, merefleksikan polarisasi antara provinsi dengan wilayah urban terbatas versus provinsi dengan banyak pusat kota. Sementara distribusi IPM relatif normal dengan sedikit left-skew, menunjukkan bahwa sebagian besar provinsi berada pada rentang IPM 68-74 dengan beberapa provinsi memiliki IPM sangat rendah (<65) dan sangat tinggi (>78), mengonfirmasi adanya kesenjangan kualitas hidup yang sistematis.

Uji KMO

Berdasarkan hasil Uji KMO, data memenuhi kelayakan untuk analisis cluster dengan nilai KMO overall ≥ 0.7 yang menunjukkan kecukupan sampling adequate. Plot silhouette width mengonfirmasi bahwa 2 cluster merupakan jumlah optimal dengan nilai silhouette average tertinggi, menunjukkan bahwa pembagian menjadi dua kelompok provinsi menghasilkan separasi dan kohesi internal cluster yang paling baik dibandingkan opsi jumlah cluster lainnya.

3.5. Interpretasi Hasil Analisis Data

Hasil K-Means Clustering menghasilkan 2 cluster dengan karakteristik berbeda. Cluster 1 (28 provinsi) menunjukkan profil kemiskinan lebih tinggi (11.26%), perceraian rendah (3442 kasus), wilayah kota terbatas (2 kota), dan IPM rendah (70.58). Cluster 2 (6 provinsi) memiliki kemiskinan lebih rendah (8.69%), perceraian sangat tinggi (32555 kasus), wilayah kota lebih banyak (8 kota), dan IPM lebih baik (80.77).


BAB IV

PENUTUP

4.1. Kesimpulan

Berdasarkan hasil analisis K-Means clustering, tujuan penelitian telah tercapai dengan teridentifikasinya dua cluster provinsi yang homogen berdasarkan empat indikator sosial-ekonomi. Cluster 1 terdiri dari 28 provinsi yang dicirikan oleh tingkat kemiskinan relatif lebih tinggi (11.26%), angka perceraian rendah (3,442 kasus), jumlah kota terbatas (2 kota), dan IPM lebih rendah (70.58), sementara cluster 2 mencakup 6 provinsi dengan karakteristik berlawanan yaitu kemiskinan lebih rendah (8.69%), perceraian sangat tinggi (32,555 kasus), jumlah kota banyak (8 kota), dan IPM superior (80.77). Pengelompokan ini berhasil memetakan pola kesenjangan sosial-ekonomi yang jelas antar wilayah sekaligus menyediakan dasar empiris bagi formulasi kebijakan yang lebih terarah sesuai karakteristik masing-masing cluster.

4.2. Saran

Berdasarkan karakteristik unik masing-masing cluster, rekomendasi kebijakan yang tepat sasaran diperlukan untuk mengatasi kesenjangan sosial secara efektif. Untuk cluster 1 (28 provinsi dengan kemiskinan tinggi dan IPM rendah), pemerintah daerah harus memprioritaskan kebijakan yang berfokus pada pengentasan kemiskinan melalui program padat karya, pemberdayaan UMKM, dan perluasan akses infrastruktur dasar serta layanan kesehatan dan pendidikan yang berkualitas. Sebaliknya, untuk cluster 2 (6 provinsi dengan perceraian sangat tinggi dan perkembangan urban pesat), intervensi kebijakan sebaiknya diarahkan pada penguatan ketahanan keluarga melalui layanan konseling, edukasi kehidupan berumah tangga, serta program pemerataan pembangunan untuk mengurangi tekanan sosial dan kesenjangan intra-provinsi. Secara keseluruhan, pemerintah pusat dapat menggunakan hasil clustering ini sebagai dasar alokasi sumber daya dan pendampingan yang berbeda untuk setiap cluster, memastikan bahwa dukungan yang diberikan sesuai dengan akar permasalahan spesifik di masing-masing kelompok provinsi. Untuk penelitian selanjutnya, analisis dapat diperdalam dengan menambahkan variabel lain seperti anggaran daerah, indeks Gini, atau menggunakan metode clustering lain guna memvalidasi dan menyempurnakan pemetaan ini.


DAFTAR PUSTAKA

Fabela, Z. dan Khairunnisa, A. (2024). Dampak Kesenjangan Sosial Di Indonesia. Jurnal Riset Ilmiah SENTRI 3(6), 3158-3164.
Aliffah, N. U., Yusrina, K. M., Maharani, M., dan Ratmaningsih, N. (2023). Budaya korupsi: Ketimpangan sosial ekonomi antar pejabat negara dan masyarakat akibat pandemi. Jurnal Sosial Dan Sains, 3(12), 1328-1337.
Prasetyo, Eko. (2012). DATA MINING - Konsep dan Aplikasi Menggunakan MATLAB. Yogyakarta: Penerbit ANDI.
Rasya, H. S. dan Triadi, I. 2024. Akses Keadilan dan Kesenjangan Sosial: Transformasi Melalui Peran Hukum Tata Negara. Jurnal Hukum dan Keadilan Indonesia 1(4), 1-12.
Sulistiyawati, A. dan Supriyanto, E. (2021). Implementasi Algoritma K-means Clustring dalam Penetuan Siswa Kelas Unggulan. Jurnal TEKNO KOMPAK 15(2), 25-36.