Analisis K-Means Clustering Indikator Pertumbuhan Ekonomi di Provinsi Sumatera Utara 2023

Author: Vemas Rendra Permana

Pendahuluan

Latar Belakang

Pertumbuhan ekonomi kabupaten/kota di Provinsi Sumatera Utara menunjukkan variasi yang dipengaruhi oleh perbedaan kondisi sosial, pemerataan pendapatan, kemiskinan, kualitas pendidikan, dan ketenagakerjaan. Variasi ini menuntut adanya pemetaan berbasis data untuk memahami pola perkembangan ekonomi antarwilayah secara objektif. Data tahun 2023 digunakan untuk memberikan gambaran terkini yang relevan sebagai dasar perencanaan pembangunan daerah.

Tujuh indikator yang digunakan yaitu Gini Ratio, persentase penduduk miskin, tingkat pengangguran terbuka, rata-rata lama sekolah, tingkat partisipasi angkatan kerja, laju pertumbuhan PDRB, dan child mortality rate(cmr) indikator ini dipilih karena merepresentasikan dimensi penting yang memengaruhi struktur pertumbuhan ekonomi suatu wilayah. Namun, perbedaan nilai antarwilayah belum dapat menunjukkan pola kemiripan atau keterkaitan tanpa analisis lebih lanjut.

Oleh karena itu, metode K-Means Clustering digunakan untuk mengidentifikasi kelompok wilayah berdasarkan kesamaan karakteristik numeriknya setelah proses standarisasi(scaling). Pendekatan ini diharapkan mampu menghasilkan pemetaan kondisi pertumbuhan ekonomi yang lebih terstruktur dan dapat menjadi dasar dalam perumusan strategi pembangunan yang lebih tepat sasaran.

Rumusan Madsalah

Bagaimana distribusi indikator utama yaitu gini Ratio, persentase penduduk miskin, tingkat pengangguran terbuka, rata-rata lama sekolah, tingkat partisipasi angkatan kerja, laju pertumbuhan PDRB, dan child mortality rate(cmr)?
Berapa jumlah klaster yang optimal dalam pengelompokan berdasarkan metode K-Means dan bagaimana hasil validasi menggunakan Silhouette Score dan elbow
Bagaimana karakteristik masing-masing klaster yang terbentuk?
Bagaimana interpretasi tingkat pertumbuhan ekonomi setiap klaster, serta wilayah mana saja yang termasuk ke dalam masing-masing klaster berdasarkan hasil pengelompokan?

Tujuan

Menganalisis distribusi indikator menurut kabupaten/kota di Provinsi Sumatera Utara tahun 2023.
Menentukan jumlah klaster optimal kabupaten/kota berdasarkan metode K-Means, dan divalidasi dengan Silhouette Score dan elbow.
Mengidentifikasi karakteristik masing-masing klaster berdasarkan rata-rata indikator kesejahteraan.
Menginterpretasikan tingkatan pertumbuhan ekonomi disetiap klaster dan wilayah kabupaten/kota yang termasuk di dalamnya.

Tinjauan Metode Analaisis

K-Means Clustering

K-Means Clustering adalah salah satu metode partitioning clustering non-hierarki yang paling sering digunakan. Metode ini bekerja dengan membagi N objek data ke dalam k cluster yang telah ditentukan sebelumnya. K-Means berusaha meminimalkan jarak antara objek dalam satu cluster dengan titik pusat (centroid) cluster tersebut, sekaligus memaksimalkan jarak antar centroid cluster.

Proses K-Means melibatkan penentuan jarak dan perbaikan posisi centroid secara iteratif. Jarak yang umum digunakan adalah Jarak Euclidean. Tujuan utama dari algoritma K-Means adalah untuk meminimalkan fungsi tujuan yang disebut Sum of Squared Error (SSE) atau kriteria inersia, yang dirumuskan sebagai berikut:

\[ \min_{c} \sum_{j=1}^{k} \sum_{x_i \in C} ||x_i - \mu_j||^2 \] Keterangan Variabel:

\(k\) : Jumlah cluster yang telah ditentukan.
\(C_j\) : Cluster ke-\(j\).
\(x_i\) : Objek data ke-\(i\) yang termasuk dalam cluster \(C_j\).
\(\mu_j\) : Titik pusat (centroid) dari cluster \(C_j\).
\(\left\| x_i - \mu_j \right\|^2\) : Kuadrat dari jarak Euclidean antara objek \(x_i\) dengan centroid \(\mu_j\).

Asumsi-Asumsi

Data Terstandarisasi : Karena K-Means menggunakan jarak, variabel dengan skala besar akan mendominasi variabel berskala kecil. Oleh karena itu, standarisasi (Z-Score) sangat diperlukan. Adapun rumusan Z score : \[Z = \frac{X - \mu}{\sigma}\]
Sampel representatif : Sampel dikatakan representatif apabila sampel yang diambil mewakili karakteristik populasi. Uji yang digunakan untuk menguji sampel representative adalah uji Kaiser-Mayer-Olkin (KMO) yang dapat mengukur kecukupan sampling setiap indikator. Statistik uji KMO berkisar antara 0 sampai 1. Jika nilai statistik uji berkisar antara 0,5 hingga 1, maka sampel dapat dikatakan representatif. Namun karena data yang diguanakan merupakan data populasi maka uji KMO tidak diperlukan.
Data terbebas outlier: Outlier dapat mengakibatkan klaster yang terbentuk menjadi bias, gagal merepresentasikan pola data yang sesungguhnya, dan dapat menghasilkan cluster yang tidak valid atau mengurangi efektivitas hasil segmentasi.
Data memenuhi asumsi multioklinieritas: karena jika dua variabel atau lebih saling berkorelasi erat, K-Means akan secara tidak sengaja menghitung informasi yang sama secara berulang, ibarat memberi bobot ganda pada fitur yang sama. Hal ini akan mendistorsi hasil perhitungan jarak, menyebabkan klaster menjadi bias secara berlebihan ke arah variabel yang berkorelasi tersebut dan menghasilkan pengelompokan yang tidak akurat atau tidak valid.

Penentuan Klaster Optimal

Metode Elbow

Metode Elbow dalam analisis clustering memanfaatkan nilai total Within Sum of Squares (WSS), yang sering disebut juga sebagai inertia, sebagai metrik utama untuk mengidentifikasi jumlah klaster (k) yang paling optimal. Prinsip dasarnya adalah dengan memplot nilai WSS terhadap berbagai nilai k, di mana penurunan WSS yang signifikan akan membentuk pola seperti “siku” atau elbow pada grafik. Titik di mana kurva mulai melandai setelah penurunan tajam tersebut dianggap sebagai indikasi k optimal, karena menunjukkan bahwa penambahan klaster lebih lanjut tidak lagi memberikan manfaat yang berarti dalam mengurangi variasi intra-klaster.

Metode Sillouhate

Pendekatan rata-rata Silhouette Score merupakan salah satu metode yang paling umum digunakan untuk mengevaluasi kualitas klaster yang dihasilkan dalam analisis clustering, khususnya pada algoritma seperti K-Means. Metode ini mengukur seberapa baik setiap titik data cocok dengan klaster miliknya dibandingkan dengan klaster tetangga terdekat. Rata-rata Silhouette Score dihitung dari seluruh titik data untuk suatu nilai k tertentu. Semakin tinggi nilai rata-rata ini, semakin baik kualitas klaster secara keseluruhan artinya klaster lebih terdefinisi dengan baik, lebih kompak di dalam, dan lebih terpisah antar-klaster.

Metodelogi

Library yang dibutuhkan

library(cluster)
library(factoextra)
library(psych)
library(usdm)
library(DescTools)
library(clusterSim)
library(cluster)
library(tidyverse)
library(readxl)
library(DT)
library(rmdformats)

Data dan Sumber Data

datacluster = read_excel("C:/Users/User/Downloads/Data_Komlan.xlsx")
means_real <-colMeans(datacluster[,sapply(datacluster,is.numeric)])
sd_real    <-apply(datacluster[,sapply(datacluster,is.numeric)], 2, sd)
datatable(datacluster, caption = "Data Sosial Provinsi Sumatera Utara 2023")

Variabel-variabel yang digunakan dalam penelitian ini adalah sebagai berikut:

X1 merupakan PDRB (Produk Domestik Regional Bruto) dengan satuan ribu rupiah per persen.
X2 adalah GINI (Gini Ratio yang mengukur ketimpangan) dengan nilai berkisar antara 0 hingga 1.
X3 adalah PPM (Persentase Penduduk Miskin) yang diukur dalam persen.
X4 adalah TPT (Tingkat Pengangguran Terbuka) dengan satuan persen.
X5 adalah HLS (Harapan Lama Sekolah) yang dinyatakan dalam satuan tahun.
X6 adalah TPAK (Tingkat Partisipasi Angkatan Kerja) dengan satuan persen.
X7 adalah CMR (Child Mortality Rate atau tingkat kematian anak yang mencerminkan kondisi kesehatan) dengan satuan per 1.000 kelahiran hidup.

Tahapan Analisis

Scaling/Standarisasi Data
Uji Asumsi ( outlier dan multikolinieritas)
Penentuan Klaster Optimal
Penerapan Algoritma K-Means
Interpretasi dan Profiling Tiap Cluster

Hasil dan Pembahasan

Statistik Deskriptif

summary(datacluster)

##  Kabupaten_Kota        X1(PDRB)        X2(GINI)         X3(PPM)     
##  Length:33          Min.   :1.650   Min.   :0.2060   Min.   : 3.44  
##  Class :character   1st Qu.:4.050   1st Qu.:0.2340   1st Qu.: 7.37  
##  Mode  :character   Median :4.800   Median :0.2480   Median : 8.21  
##                     Mean   :4.558   Mean   :0.2593   Mean   : 9.73  
##                     3rd Qu.:5.240   3rd Qu.:0.2770   3rd Qu.:11.39  
##                     Max.   :5.880   Max.   :0.3560   Max.   :22.68  
##     X4(TPT)         X5(HlS)         X6(TPAK)        X7(CMR)     
##  Min.   :0.890   Min.   :12.64   Min.   :64.22   Min.   :2.560  
##  1st Qu.:2.400   1st Qu.:13.25   1st Qu.:67.75   1st Qu.:2.790  
##  Median :4.600   Median :13.42   Median :72.01   Median :3.240  
##  Mean   :4.358   Mean   :13.48   Mean   :74.37   Mean   :3.708  
##  3rd Qu.:6.080   3rd Qu.:13.70   3rd Qu.:81.18   3rd Qu.:4.520  
##  Max.   :8.130   Max.   :14.78   Max.   :86.52   Max.   :6.000

Output di atas merupakan statistik deskriptif dari data yang meliputi data minimum, maksimum, dan kuartil data.

Scaling/Standarisasi Data

datacluster_scl<-as.data.frame(round(scale(datacluster[, sapply(datacluster, is.numeric)]),4))
datacluster_gab <- data.frame(Kabupaten_Kota = datacluster[, 1], datacluster_scl)
datatable(datacluster_gab, caption = "Data Sosial Provinsi Sumatera Utara 2023")

Setelah distandarisasi menggunakan metode sclae ( Z-Score), nilai-nilai pada semua variabel (X1-X7) berhasil ditransformasi ke dalam skala yang seragam, berpusat di sekitar nol (Mean = 0) dengan deviasi standar mendekati satu. Hal ini memastikan bahwa semua variabel akan memiliki bobot yang setara dalam perhitungan jarak klaster.

Uji Pengecekan Outlier

m_dist <- mahalanobis(datacluster_scl,
                      colMeans(datacluster_scl),
                      cov(datacluster_scl))
cutoff <- qchisq(0.95, df = ncol(datacluster_scl))
index_outlier <- which(m_dist > cutoff)
if (length(index_outlier) > 0) {
  daftar_outlier <- paste(index_outlier, collapse = ", ")
  cat("Outlier ditemukan di data ke:", daftar_outlier, "\n")
} else {
  cat("Tidak ada outlier\n")
}

## Tidak ada outlier

Berdasarkan output diatas maka data dinyatakan valid untuk analisis K-Means karena terbebas dari outlier (berdasarkan jarak Mahalanobis). Maka dipastikaan jika proses pengelompokan akan optimal karena data bersih dari pencilan ekstrim.

Uji Multikolinieritas

datatable(vif(datacluster_scl))

Dari output nilai VIF dapat diketahui jika data tidak memiliki masalah multikolinearitas (seluruh nilai VIF < 10). Hal ini menunjukkan jika tidak ada redundansi antar variabel.

Penentuan Klaster Optimal

Metode Elbow

fviz_nbclust(datacluster_scl,kmeans,method = "wss")

Dilihat dari output Metode Elbow menunjukkan titik belok (elbow point) terjadi pada k= 4 sehingga dapat digunakan k=4 sebagai klaster optimalnya.

Metode Sillouhate

fviz_nbclust(datacluster_scl,kmeans,method= "silhouette")

Dilihat dari output Metode Silhouette memberikan validasi yang kuat dengan nilai Average Silhouette Width tertinggi dicapai secara eksplisit pada k= 4. Dari kedua metode penentuan klaster optimal menunjukan jika k=4 merupakan kelompok klaster yang paling optimal.

Pengelompokan Klaster

set.seed(123)
Output_cluster<- kmeans(datacluster_scl,centers=4,nstart=25)
Output_cluster

## K-means clustering with 4 clusters of sizes 6, 8, 15, 4
## 
## Cluster means:
##      X1(PDRB)   X2(GINI)    X3(PPM)    X4(TPT)    X5(HlS)   X6(TPAK)    X7(CMR)
## 1  0.71941667  1.4797333 -0.4776667  1.0746500  1.2290667 -0.8783333 -0.8287000
## 2 -0.42996250  0.0747875 -0.1610750 -1.1936625  0.1321750  1.1813125 -0.7062000
## 3  0.02055333 -0.4808867 -0.2997467  0.4450867 -0.3663267 -0.5077667  0.3762933
## 4 -0.29630000 -0.5659250  2.1626750 -0.8938000 -0.7343250  0.8590500  1.2443500
## 
## Clustering vector:
##  [1] 4 3 3 3 2 2 3 3 3 2 2 3 3 4 2 2 2 3 3 3 3 3 3 4 4 1 3 1 1 1 1 1 2
## 
## Within cluster sum of squares by cluster:
## [1] 15.486403 35.590516 44.613703  6.895105
##  (between_SS / total_SS =  54.2 %)
## 
## Available components:
## 
## [1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
## [6] "betweenss"    "size"         "iter"         "ifault"

Visualisasi Klaster Wilayah

fviz_cluster(Output_cluster,data=datacluster_scl)

data_gabung_cluster <- cbind(datacluster, cluster_ke = Output_cluster$cluster)
tabel_hasil <- data_gabung_cluster %>%
  group_by(cluster_ke) %>%
  summarise(
    Kab_Kota = paste(Kabupaten_Kota, collapse = ", ")
  ) %>%
  mutate(cluster_ke = paste("Cluster", cluster_ke))
tabel_hasil <- as.data.frame(tabel_hasil)
datatable(tabel_hasil)

Hasil analisis K-Means membagi 33 Kabupaten/Kota di Sumatera Utara menjadi 4 klaster optimal, yang menunjukkan adanya pengelompokan berdasarkan karakteristik yang berbeda. Klaster 3 adalah yang terbesar dengan 15 anggota (termasuk wilayah padat seperti Deli Serdang dan Simalungun). Klaster 4 mengelompokkan wilayah Kepulauan Nias, dan Klaster 2 mengelompokkan wilayah Toba dan sekitarnya, ini menunjukkan adanya pengelompokan berdasarkan karakteristik geografis.

Interpretasi Mean tiap Klaster

centers_scaled <- Output_cluster$centers
centers_real <- t(t(centers_scaled) * sd_real + means_real)
datatable(round((centers_real),4))

Klaster 1 (Wilayah Maju & Perkotaan): Cluster ini memiliki PDRB tertinggi (5,26) dan HLS tertinggi (14,11), menandakan ekonomi dan kualitas pendidikan yang sangat baik. Namun, sebagai konsekuensi urbanisasi, wilayah ini juga memiliki Tingkat Pengangguran (TPT) tertinggi (6,90) dan ketimpangan (GINI) yang paling tinggi dibanding cluster lain.
Klaster 2 (Wilayah Produktif): Cluster ini dicirikan oleh Tingkat Pengangguran terendah (1,52) dan Partisipasi Angkatan Kerja (TPAK) tertinggi (82,85). Meskipun masyarakatnya sangat aktif bekerja, nilai ekonominya (PDRB) justru terendah (4,13), mengindikasikan dominasi sektor informal atau pertanian dengan nilai tambah yang belum maksimal.
Klaster 3 (Wilayah Sedang Berkembang (Transisi)): Cluster ini memiliki karakteristik “rata-rata” pada hampir semua indikator. PDRB dan kualitas pendidikan (HLS) berada di level menengah, dengan tingkat kemiskinan dan pengangguran yang moderat. Ini menunjukkan wilayah yang sedang dalam fase transisi menuju kemajuan namun belum sepesat Cluster 1.
Klaster 4 (Wilayah Tertinggal): Cluster ini merupakan wilayah dengan kinerja terendah, ditandai dengan Kemiskinan (PPM) tertinggi yang sangat ekstrim (18,84) dan angka kesehatan/CMR yang buruk (4,91). Meskipun ketimpangannya rendah (Gini 0,23), hal ini lebih disebabkan karena pemerataan taraf hidup yang rendah secara umum.

Kesimpulan

Analisis K-Means Clustering di Sumatera Utara menghasilkan4 klaster optimal berdasarkan metode K-Means, yang telah divalidasi melalui Metode Elbow, Silhouette. Wilayah “Maju & Perkotaan” (Klaster 1) mendominasi secara ekonomi dengan PDRB dan kualitas pendidikan tertinggi, namun menghadapi masalah berupa tingginya tingkat pengangguran dan ketimpangan pendapatan, yang mengindikasikan pertumbuhan yang belum inklusif. Kondisi ini bertolak belakang dengan “Wilayah Tertinggal” (Klaster 4) yang terperangkap dalam kemiskinan ekstrem dan rendahnya indikator kesehatan. Di antara Klaster 1 dan Klaster 4 tersebut, terdapat “Wilayah Produktif” (Klaster 2) yang memiliki serapan tenaga kerja maksimal namun nilai tambah ekonomi (PDRB) yang minim akibat rendahnya produktivitas sektor informal, serta “Wilayah Sedang Berkembang” (Klaster 3) yang menunjukkan stabilitas indikator di level moderat sebagai fase transisi menuju kemajuan.

Dapat disimpulkan dari Analisis k-Means Clustering ini bahwa strategi pembangunan di Sumatera Utara tidak dapat diterapkan secara seragam. Pemerintah daerah perlu merumuskan solusi yang optimal dan tepat seperti: mendorong penciptaan lapangan kerja formal untuk mengatasi pengangguran di wilayah maju, melakukan hilirisasi untuk mendongkrak nilai tambah di wilayah produktif, serta memprioritaskan perbaikan infrastruktur dasar dan jaring pengaman sosial untuk mengentaskan kemiskinan di wilayah tertinggal demi tercapainya pemerataan pembangunan yang berkualitas agar pertumbuhan ekonomi di Provinsi Sumatera Utara semakin baik.

Daftar Pustaka

Badan Pusat Statistik Provinsi Sumatera Utara. (2023). Provinsi Sumatera Utara dalam angka 2023. https://sumut.bps.go.id/publication

Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2010). Multivariate data analysis (7th ed.). Pearson.

Johnson, R. A., & Wichern, D. W. (2007). Applied multivariate statistical analysis (6th ed.). Pearson Prentice Hall.

Ningsih, I. K. M. M., & Wijayanto, A. W. (2023). Komparasi metode clustering pada provinsi di Indonesia berdasarkan pertumbuhan ekonomi tahun 2022. Komputika: Jurnal Sistem Komputer, 12(2), 103–112.

Novaldi, J. dan A.W. Wijayanto. 2023. Analisis Cluster Kualitas Pemuda di Indonesia pada Tahun 2022 dengan Agglomerative Hierarichal dan K-Means. Komputika: Jurnal Sistem Komputer. 2(12):91-99.

Riadi, R.A. 2020. Analisis Cluster Menggunakan K-Means Clustering Rstudio. https://medium.com/@17611063/analisis-cluster-menggunakan-k-means-clustering-rstudio-5834aee9b066. 8 Maret 2026 (19.19)