Analisis K-Means Clustering Indikator Pertumbuhan Ekonomi di Provinsi Sumatera Utara 2023
Author: Vemas Rendra Permana
Pendahuluan
Latar Belakang
Pertumbuhan ekonomi kabupaten/kota di Provinsi Sumatera Utara menunjukkan variasi yang dipengaruhi oleh perbedaan kondisi sosial, pemerataan pendapatan, kemiskinan, kualitas pendidikan, dan ketenagakerjaan. Variasi ini menuntut adanya pemetaan berbasis data untuk memahami pola perkembangan ekonomi antarwilayah secara objektif. Data tahun 2023 digunakan untuk memberikan gambaran terkini yang relevan sebagai dasar perencanaan pembangunan daerah.
Tujuh indikator yang digunakan yaitu Gini Ratio, persentase penduduk miskin, tingkat pengangguran terbuka, rata-rata lama sekolah, tingkat partisipasi angkatan kerja, laju pertumbuhan PDRB, dan child mortality rate(cmr) indikator ini dipilih karena merepresentasikan dimensi penting yang memengaruhi struktur pertumbuhan ekonomi suatu wilayah. Namun, perbedaan nilai antarwilayah belum dapat menunjukkan pola kemiripan atau keterkaitan tanpa analisis lebih lanjut.
Oleh karena itu, metode K-Means Clustering digunakan untuk mengidentifikasi kelompok wilayah berdasarkan kesamaan karakteristik numeriknya setelah proses standarisasi(scaling). Pendekatan ini diharapkan mampu menghasilkan pemetaan kondisi pertumbuhan ekonomi yang lebih terstruktur dan dapat menjadi dasar dalam perumusan strategi pembangunan yang lebih tepat sasaran.
Rumusan Madsalah
- Bagaimana distribusi indikator utama yaitu gini Ratio, persentase penduduk miskin, tingkat pengangguran terbuka, rata-rata lama sekolah, tingkat partisipasi angkatan kerja, laju pertumbuhan PDRB, dan child mortality rate(cmr)?
- Berapa jumlah klaster yang optimal dalam pengelompokan berdasarkan metode K-Means dan bagaimana hasil validasi menggunakan Silhouette Score dan elbow
- Bagaimana karakteristik masing-masing klaster yang terbentuk?
- Bagaimana interpretasi tingkat pertumbuhan ekonomi setiap klaster, serta wilayah mana saja yang termasuk ke dalam masing-masing klaster berdasarkan hasil pengelompokan?
Tujuan
- Menganalisis distribusi indikator menurut kabupaten/kota di Provinsi Sumatera Utara tahun 2023.
- Menentukan jumlah klaster optimal kabupaten/kota berdasarkan metode K-Means, dan divalidasi dengan Silhouette Score dan elbow.
- Mengidentifikasi karakteristik masing-masing klaster berdasarkan rata-rata indikator kesejahteraan.
- Menginterpretasikan tingkatan pertumbuhan ekonomi disetiap klaster dan wilayah kabupaten/kota yang termasuk di dalamnya.
Tinjauan Metode Analaisis
K-Means Clustering
K-Means Clustering adalah salah satu metode partitioning clustering non-hierarki yang paling sering digunakan. Metode ini bekerja dengan membagi N objek data ke dalam k cluster yang telah ditentukan sebelumnya. K-Means berusaha meminimalkan jarak antara objek dalam satu cluster dengan titik pusat (centroid) cluster tersebut, sekaligus memaksimalkan jarak antar centroid cluster.
Proses K-Means melibatkan penentuan jarak dan perbaikan posisi centroid secara iteratif. Jarak yang umum digunakan adalah Jarak Euclidean. Tujuan utama dari algoritma K-Means adalah untuk meminimalkan fungsi tujuan yang disebut Sum of Squared Error (SSE) atau kriteria inersia, yang dirumuskan sebagai berikut:
\[ \min_{c} \sum_{j=1}^{k} \sum_{x_i \in C} ||x_i - \mu_j||^2 \] Keterangan Variabel:
- \(k\) : Jumlah cluster yang telah ditentukan.
- \(C_j\) : Cluster ke-\(j\).
- \(x_i\) : Objek data ke-\(i\) yang termasuk dalam cluster \(C_j\).
- \(\mu_j\) : Titik pusat (centroid) dari cluster \(C_j\).
- \(\left\| x_i - \mu_j \right\|^2\) : Kuadrat dari jarak Euclidean antara objek \(x_i\) dengan centroid \(\mu_j\).
Asumsi-Asumsi
Data Terstandarisasi : Karena K-Means menggunakan jarak, variabel dengan skala besar akan mendominasi variabel berskala kecil. Oleh karena itu, standarisasi (Z-Score) sangat diperlukan. Adapun rumusan Z score : \[Z = \frac{X - \mu}{\sigma}\]
Sampel representatif : Sampel dikatakan representatif apabila sampel yang diambil mewakili karakteristik populasi. Uji yang digunakan untuk menguji sampel representative adalah uji Kaiser-Mayer-Olkin (KMO) yang dapat mengukur kecukupan sampling setiap indikator. Statistik uji KMO berkisar antara 0 sampai 1. Jika nilai statistik uji berkisar antara 0,5 hingga 1, maka sampel dapat dikatakan representatif. Namun karena data yang diguanakan merupakan data populasi maka uji KMO tidak diperlukan.
Data terbebas outlier: Outlier dapat mengakibatkan klaster yang terbentuk menjadi bias, gagal merepresentasikan pola data yang sesungguhnya, dan dapat menghasilkan cluster yang tidak valid atau mengurangi efektivitas hasil segmentasi.
Data memenuhi asumsi multioklinieritas: karena jika dua variabel atau lebih saling berkorelasi erat, K-Means akan secara tidak sengaja menghitung informasi yang sama secara berulang, ibarat memberi bobot ganda pada fitur yang sama. Hal ini akan mendistorsi hasil perhitungan jarak, menyebabkan klaster menjadi bias secara berlebihan ke arah variabel yang berkorelasi tersebut dan menghasilkan pengelompokan yang tidak akurat atau tidak valid.
Penentuan Klaster Optimal
Metode Elbow
Metode Elbow dalam analisis clustering memanfaatkan nilai total Within Sum of Squares (WSS), yang sering disebut juga sebagai inertia, sebagai metrik utama untuk mengidentifikasi jumlah klaster (k) yang paling optimal. Prinsip dasarnya adalah dengan memplot nilai WSS terhadap berbagai nilai k, di mana penurunan WSS yang signifikan akan membentuk pola seperti “siku” atau elbow pada grafik. Titik di mana kurva mulai melandai setelah penurunan tajam tersebut dianggap sebagai indikasi k optimal, karena menunjukkan bahwa penambahan klaster lebih lanjut tidak lagi memberikan manfaat yang berarti dalam mengurangi variasi intra-klaster.
Metode Sillouhate
Pendekatan rata-rata Silhouette Score merupakan salah satu metode yang paling umum digunakan untuk mengevaluasi kualitas klaster yang dihasilkan dalam analisis clustering, khususnya pada algoritma seperti K-Means. Metode ini mengukur seberapa baik setiap titik data cocok dengan klaster miliknya dibandingkan dengan klaster tetangga terdekat. Rata-rata Silhouette Score dihitung dari seluruh titik data untuk suatu nilai k tertentu. Semakin tinggi nilai rata-rata ini, semakin baik kualitas klaster secara keseluruhan artinya klaster lebih terdefinisi dengan baik, lebih kompak di dalam, dan lebih terpisah antar-klaster.
Metodelogi
Library yang dibutuhkan
Data dan Sumber Data
datacluster = read_excel("C:/Users/User/Downloads/Data_Komlan.xlsx")
means_real <-colMeans(datacluster[,sapply(datacluster,is.numeric)])
sd_real <-apply(datacluster[,sapply(datacluster,is.numeric)], 2, sd)
datatable(datacluster, caption = "Data Sosial Provinsi Sumatera Utara 2023")Variabel-variabel yang digunakan dalam penelitian ini adalah sebagai berikut:
- X1 merupakan PDRB (Produk Domestik Regional Bruto) dengan satuan ribu rupiah per persen.
- X2 adalah GINI (Gini Ratio yang mengukur ketimpangan) dengan nilai berkisar antara 0 hingga 1.
- X3 adalah PPM (Persentase Penduduk Miskin) yang diukur dalam persen.
- X4 adalah TPT (Tingkat Pengangguran Terbuka) dengan satuan persen.
- X5 adalah HLS (Harapan Lama Sekolah) yang dinyatakan dalam satuan tahun.
- X6 adalah TPAK (Tingkat Partisipasi Angkatan Kerja) dengan satuan persen.
- X7 adalah CMR (Child Mortality Rate atau tingkat kematian anak yang mencerminkan kondisi kesehatan) dengan satuan per 1.000 kelahiran hidup.
Tahapan Analisis
- Scaling/Standarisasi Data
- Uji Asumsi ( outlier dan multikolinieritas)
- Penentuan Klaster Optimal
- Penerapan Algoritma K-Means
- Interpretasi dan Profiling Tiap Cluster
Hasil dan Pembahasan
Statistik Deskriptif
## Kabupaten_Kota X1(PDRB) X2(GINI) X3(PPM)
## Length:33 Min. :1.650 Min. :0.2060 Min. : 3.44
## Class :character 1st Qu.:4.050 1st Qu.:0.2340 1st Qu.: 7.37
## Mode :character Median :4.800 Median :0.2480 Median : 8.21
## Mean :4.558 Mean :0.2593 Mean : 9.73
## 3rd Qu.:5.240 3rd Qu.:0.2770 3rd Qu.:11.39
## Max. :5.880 Max. :0.3560 Max. :22.68
## X4(TPT) X5(HlS) X6(TPAK) X7(CMR)
## Min. :0.890 Min. :12.64 Min. :64.22 Min. :2.560
## 1st Qu.:2.400 1st Qu.:13.25 1st Qu.:67.75 1st Qu.:2.790
## Median :4.600 Median :13.42 Median :72.01 Median :3.240
## Mean :4.358 Mean :13.48 Mean :74.37 Mean :3.708
## 3rd Qu.:6.080 3rd Qu.:13.70 3rd Qu.:81.18 3rd Qu.:4.520
## Max. :8.130 Max. :14.78 Max. :86.52 Max. :6.000
Output di atas merupakan statistik deskriptif dari data yang meliputi data minimum, maksimum, dan kuartil data.
Scaling/Standarisasi Data
datacluster_scl<-as.data.frame(round(scale(datacluster[, sapply(datacluster, is.numeric)]),4))
datacluster_gab <- data.frame(Kabupaten_Kota = datacluster[, 1], datacluster_scl)
datatable(datacluster_gab, caption = "Data Sosial Provinsi Sumatera Utara 2023")Setelah distandarisasi menggunakan metode sclae ( Z-Score), nilai-nilai pada semua variabel (X1-X7) berhasil ditransformasi ke dalam skala yang seragam, berpusat di sekitar nol (Mean = 0) dengan deviasi standar mendekati satu. Hal ini memastikan bahwa semua variabel akan memiliki bobot yang setara dalam perhitungan jarak klaster.
Uji Pengecekan Outlier
m_dist <- mahalanobis(datacluster_scl,
colMeans(datacluster_scl),
cov(datacluster_scl))
cutoff <- qchisq(0.95, df = ncol(datacluster_scl))
index_outlier <- which(m_dist > cutoff)
if (length(index_outlier) > 0) {
daftar_outlier <- paste(index_outlier, collapse = ", ")
cat("Outlier ditemukan di data ke:", daftar_outlier, "\n")
} else {
cat("Tidak ada outlier\n")
}## Tidak ada outlier
Berdasarkan output diatas maka data dinyatakan valid untuk analisis K-Means karena terbebas dari outlier (berdasarkan jarak Mahalanobis). Maka dipastikaan jika proses pengelompokan akan optimal karena data bersih dari pencilan ekstrim.
Uji Multikolinieritas
Dari output nilai VIF dapat diketahui jika data tidak memiliki masalah multikolinearitas (seluruh nilai VIF < 10). Hal ini menunjukkan jika tidak ada redundansi antar variabel.
Penentuan Klaster Optimal
Metode Elbow
Dilihat dari output Metode Elbow menunjukkan titik belok (elbow point)
terjadi pada k= 4 sehingga dapat digunakan k=4 sebagai klaster
optimalnya.
Metode Sillouhate
Dilihat dari output Metode Silhouette memberikan validasi yang kuat
dengan nilai Average Silhouette Width tertinggi dicapai secara eksplisit
pada k= 4. Dari kedua metode penentuan klaster optimal menunjukan jika
k=4 merupakan kelompok klaster yang paling optimal.
Pengelompokan Klaster
## K-means clustering with 4 clusters of sizes 6, 8, 15, 4
##
## Cluster means:
## X1(PDRB) X2(GINI) X3(PPM) X4(TPT) X5(HlS) X6(TPAK) X7(CMR)
## 1 0.71941667 1.4797333 -0.4776667 1.0746500 1.2290667 -0.8783333 -0.8287000
## 2 -0.42996250 0.0747875 -0.1610750 -1.1936625 0.1321750 1.1813125 -0.7062000
## 3 0.02055333 -0.4808867 -0.2997467 0.4450867 -0.3663267 -0.5077667 0.3762933
## 4 -0.29630000 -0.5659250 2.1626750 -0.8938000 -0.7343250 0.8590500 1.2443500
##
## Clustering vector:
## [1] 4 3 3 3 2 2 3 3 3 2 2 3 3 4 2 2 2 3 3 3 3 3 3 4 4 1 3 1 1 1 1 1 2
##
## Within cluster sum of squares by cluster:
## [1] 15.486403 35.590516 44.613703 6.895105
## (between_SS / total_SS = 54.2 %)
##
## Available components:
##
## [1] "cluster" "centers" "totss" "withinss" "tot.withinss"
## [6] "betweenss" "size" "iter" "ifault"
Visualisasi Klaster Wilayah
data_gabung_cluster <- cbind(datacluster, cluster_ke = Output_cluster$cluster)
tabel_hasil <- data_gabung_cluster %>%
group_by(cluster_ke) %>%
summarise(
Kab_Kota = paste(Kabupaten_Kota, collapse = ", ")
) %>%
mutate(cluster_ke = paste("Cluster", cluster_ke))
tabel_hasil <- as.data.frame(tabel_hasil)
datatable(tabel_hasil)Hasil analisis K-Means membagi 33 Kabupaten/Kota di Sumatera Utara menjadi 4 klaster optimal, yang menunjukkan adanya pengelompokan berdasarkan karakteristik yang berbeda. Klaster 3 adalah yang terbesar dengan 15 anggota (termasuk wilayah padat seperti Deli Serdang dan Simalungun). Klaster 4 mengelompokkan wilayah Kepulauan Nias, dan Klaster 2 mengelompokkan wilayah Toba dan sekitarnya, ini menunjukkan adanya pengelompokan berdasarkan karakteristik geografis.
Interpretasi Mean tiap Klaster
centers_scaled <- Output_cluster$centers
centers_real <- t(t(centers_scaled) * sd_real + means_real)
datatable(round((centers_real),4))- Klaster 1 (Wilayah Maju & Perkotaan): Cluster ini memiliki PDRB tertinggi (5,26) dan HLS tertinggi (14,11), menandakan ekonomi dan kualitas pendidikan yang sangat baik. Namun, sebagai konsekuensi urbanisasi, wilayah ini juga memiliki Tingkat Pengangguran (TPT) tertinggi (6,90) dan ketimpangan (GINI) yang paling tinggi dibanding cluster lain.
- Klaster 2 (Wilayah Produktif): Cluster ini dicirikan oleh Tingkat Pengangguran terendah (1,52) dan Partisipasi Angkatan Kerja (TPAK) tertinggi (82,85). Meskipun masyarakatnya sangat aktif bekerja, nilai ekonominya (PDRB) justru terendah (4,13), mengindikasikan dominasi sektor informal atau pertanian dengan nilai tambah yang belum maksimal.
- Klaster 3 (Wilayah Sedang Berkembang (Transisi)): Cluster ini memiliki karakteristik “rata-rata” pada hampir semua indikator. PDRB dan kualitas pendidikan (HLS) berada di level menengah, dengan tingkat kemiskinan dan pengangguran yang moderat. Ini menunjukkan wilayah yang sedang dalam fase transisi menuju kemajuan namun belum sepesat Cluster 1.
- Klaster 4 (Wilayah Tertinggal): Cluster ini merupakan wilayah dengan kinerja terendah, ditandai dengan Kemiskinan (PPM) tertinggi yang sangat ekstrim (18,84) dan angka kesehatan/CMR yang buruk (4,91). Meskipun ketimpangannya rendah (Gini 0,23), hal ini lebih disebabkan karena pemerataan taraf hidup yang rendah secara umum.
Kesimpulan
Analisis K-Means Clustering di Sumatera Utara menghasilkan4 klaster optimal berdasarkan metode K-Means, yang telah divalidasi melalui Metode Elbow, Silhouette. Wilayah “Maju & Perkotaan” (Klaster 1) mendominasi secara ekonomi dengan PDRB dan kualitas pendidikan tertinggi, namun menghadapi masalah berupa tingginya tingkat pengangguran dan ketimpangan pendapatan, yang mengindikasikan pertumbuhan yang belum inklusif. Kondisi ini bertolak belakang dengan “Wilayah Tertinggal” (Klaster 4) yang terperangkap dalam kemiskinan ekstrem dan rendahnya indikator kesehatan. Di antara Klaster 1 dan Klaster 4 tersebut, terdapat “Wilayah Produktif” (Klaster 2) yang memiliki serapan tenaga kerja maksimal namun nilai tambah ekonomi (PDRB) yang minim akibat rendahnya produktivitas sektor informal, serta “Wilayah Sedang Berkembang” (Klaster 3) yang menunjukkan stabilitas indikator di level moderat sebagai fase transisi menuju kemajuan.
Dapat disimpulkan dari Analisis k-Means Clustering ini bahwa strategi pembangunan di Sumatera Utara tidak dapat diterapkan secara seragam. Pemerintah daerah perlu merumuskan solusi yang optimal dan tepat seperti: mendorong penciptaan lapangan kerja formal untuk mengatasi pengangguran di wilayah maju, melakukan hilirisasi untuk mendongkrak nilai tambah di wilayah produktif, serta memprioritaskan perbaikan infrastruktur dasar dan jaring pengaman sosial untuk mengentaskan kemiskinan di wilayah tertinggal demi tercapainya pemerataan pembangunan yang berkualitas agar pertumbuhan ekonomi di Provinsi Sumatera Utara semakin baik.
Daftar Pustaka
Badan Pusat Statistik Provinsi Sumatera Utara. (2023). Provinsi Sumatera Utara dalam angka 2023. https://sumut.bps.go.id/publication
Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2010). Multivariate data analysis (7th ed.). Pearson.
Johnson, R. A., & Wichern, D. W. (2007). Applied multivariate statistical analysis (6th ed.). Pearson Prentice Hall.
Ningsih, I. K. M. M., & Wijayanto, A. W. (2023). Komparasi metode clustering pada provinsi di Indonesia berdasarkan pertumbuhan ekonomi tahun 2022. Komputika: Jurnal Sistem Komputer, 12(2), 103–112.
Novaldi, J. dan A.W. Wijayanto. 2023. Analisis Cluster Kualitas Pemuda di Indonesia pada Tahun 2022 dengan Agglomerative Hierarichal dan K-Means. Komputika: Jurnal Sistem Komputer. 2(12):91-99.
Riadi, R.A. 2020. Analisis Cluster Menggunakan K-Means Clustering Rstudio. https://medium.com/@17611063/analisis-cluster-menggunakan-k-means-clustering-rstudio-5834aee9b066. 8 Maret 2026 (19.19)