Pendahuluan

Pembangunan ekonomi daerah merupakan salah satu aspek penting dalam meningkatkan kesejahteraan masyarakat secara berkelanjutan. Di Jawa Timur, perbedaan tingkat pengangguran, kapasitas UMKM, dan kualitas pembangunan manusia antardaerah masih cukup mencolok. Perbedaan tersebut menunjukkan perlunya analisis yang lebih mendalam untuk memahami pola hubungan antarindikator.

Pada penelitian ini digunakan tiga indikator utama pembangunan daerah pada berbagai kabupaten/kota di Jawa Timur, yaitu Tingkat Pengangguran Terbuka (TPT) yang mencerminkan kemampuan daerah dalam menyediakan lapangan kerja. Nilai TPT yang tinggi mengindikasikan adanya masalah dalam sektor tenaga kerja, sedangkan TPT rendah menunjukkan kondisi ketenagakerjaan yang relatif stabil. Kemudian indikator jumlah pelaku Usaha Mikro Kecil dan Menengah (UMKM) yang merupakan tulang punggung perekonomian daerah dan memainkan peran penting dalam pertumbuhan ekonomi serta penyerapan tenaga kerja. Terakhir, Indeks Pembangunan Manusia (IPM) yang memperlihatkan kualitas hidup masyarakat secara umum, meliputi aspek pendidikan, kesehatan, dan standar hidup. IPM yang tinggi menandakan kualitas pembangunan manusia yang baik.

Setiap daerah memiliki karakteristik sosial ekonomi yang berbeda, sehingga perlu dilakukan analisis yang komprehensif untuk memahami pola, kemiripan, dan perbedaan antarwilayah. Salah satu pendekatan yang dapat digunakan adalah analisis multivariat yang memungkinkan peneliti melihat struktur hubungan antarwilayah melalui berbagai indikator secara sekaligus (simultan). Analisis multivariat yang sesuai dengan kasus tersebut yaitu analisis cluster dan multidimensional scaling (MDS), berupa metode statistik yang digunakan untuk memahami struktur kemiripan antarobjek. Penjelasan mengenai metode statistik yang digunakan:

  1. Analisis Cluster Hierarki, memberikan struktur pengelompokan berupa dendrogram yang menunjukkan hubungan bertingkat antardaerah. Cluster hierarki mengelompokkan objek berdasarkan ukuran kemiripan dan menghasilkan dendrogram yang menggambarkan proses penggabungan objek mulai dari individu hingga menjadi satu cluster besar.

  2. Analisis Cluster Non-Hierarki (K-Means) merupakan metode pengelompokkan data ke dalam k kelompok berdasarkan kemiripan karakteristik antarobjek (Sholihah, dkk, 2025). Metode non-hierarki dimulai dengan menentukan jumlah cluster di awal yang kemudian secara iteratif meminimalkan jarak antara objek dan centroid cluster. Metode ini cocok untuk dataset besar dan mampu menghasilkan pemisahan cluster yang lebih stabil dibandingkan hierarki.

  3. Multidimensional Scaling (MDS) membantu memvisualisasikan posisi relatif antarwilayah dalam ruang berdimensi rendah (biasanya 2) sehingga pola kedekatan/wilayah dapat dengan mudah diamati. Semakin dekat dua titik pada plot MDS, semakin mirip karakteristik objek.

Dengan demikian, penelitian relevan dalam memahami dinamika pembangunan ekonomi daerah di Jawa Timur serta memberikan dasar pengambilan keputusan berbasis data. Hasil analisis diharapkan dapat memberikan gambaran yang lebih jelas terkait kesenjangan antarwilayah, karakteristik klaster pembangunan, serta posisi relatif tiap kabupaten/kota dalam dimensi sosial dan ekonomi secara visual.

Tujuan analisis ini adalah:
1. Mengelompokkan 38 Kabupaten/Kota di Jawa Timur berdasarkan 3 variabel indikator pembangunan ekonomi (TPT, UMKM, IPM) menggunakan metode cluster hierarki dan non-hierarki.
2. Menentukan jumlah cluster optimal serta melihat perbedaan hasil cluster antar-metode.
3. Memvisualisasikan kemiripan antarwilayah melalui Multidimensional Scaling (MDS).
4. Menginterpretasikan pola pengelompokan untuk memahami karakteristik regional dan perbedaan antarwilayah.
5. Memberikan gambaran yang berguna sebagai bahan evaluasi pengembangan wilayah.

Source Code

library(readxl)
Data<- read_excel("C:/Users/Thia/Downloads/DATA_JATIM.xlsx")
Data
Data1<-Data[,2:4]
Data1
str(Data1)
datastand <- scale(Data1)
datastand

Penjelasan source code:
- library(readxl), mengaktifkan paket untuk membaca file excel (.xlsx).
- Data, menyimpan file excel yang telah terbaca ke dalam objek Data.
- Data1, mengambil kolom 2 hingga 4 yang menghapus nama daerah pada kolom pertama data.
- str, menampilkan struktur data untuk memastikan ketiga variabel adalah numerik
- datastand, melakukan standardisasi menjadi skala:
\[Z = \frac{x-\hat{x}}{\sigma}\]
Standardisasi dilakukan untuk variabel memiliki skala yang sama dan tidak ada yang mendominasi jarak data.

#Hierarki
dist_matrix1<-dist(datastand, method = "manhattan")
print(head(dist_matrix1))
hc1<-hclust(dist_matrix1, method = "single")
plot(hc1, main= "Cluster Hierarki (Single Linkage, Jarak Manhattan)")


dist_matrix2<-dist(datastand, method = "euclidean")
print(head(dist_matrix2))
hc2<-hclust(dist_matrix2, method = "single")
plot(hc2, main= "Cluster Hierarki (Single Linkage, Jarak Euclidean)")

library(StatMatch)
dist_matrix3 <- StatMatch::mahalanobis.dist(datastand)
print(head(dist_matrix3))
dist_matrix3 <- as.dist(dist_matrix3)
hc3<-hclust(dist_matrix3, method = "single")
plot(hc3, main= "Cluster Hierarki (Single Linkage, Jarak Mahalanobis)")

Penjelasan source code:
- dist(datastand, method = “manhattan”), menghitung matriks jarak antarwilayah menggunakan metode manhattan: \[d(x,y,z)=\Sigma_{i=1}^k|x_i-y_i-z_i|\] - dist(…, method = “euclidian”), menghitung matriks jarak antarwilayah menggunakan metode euclidian: \[d(x,y,z)=\sqrt{\Sigma_{i=1}^k(x_i-y_i-z_i)^2}\] - mahalanobis.dist(), menghitung matriks jarak antarwilayah menggunakan metode mahalanobis: \[d(x,y,z)=(x-y-z).\Sigma^{-1}.(x-y-z)\] - hclust(… , method = “single”), menggunakan metode single linkage, yaitu jarak minimum antar anggota klaster. Metode single dapat diganti menggunakan complete (jarak maksimum) atau average (jarak rata-rata). - plot(), menghasilkan dendrogram sehingga dapat melihat klaster terbentuk secara hierarki.

#Non Hierarki
library(factoextra)
#1. Tentukan jumlah cluster
fviz_nbclust(datastand, kmeans, method = "silhouette")
k <- 2
#2. Jalankan K-Means
set.seed(123)
hasil_kmeans <- kmeans(datastand, centers = k, nstart = 25)

#3. Tambahkan label cluster ke data asli
Data1$Cluster <- as.factor(hasil_kmeans$cluster)

#4. Visualisasi TANPA ELIPS
fviz_cluster(hasil_kmeans, data = datastand,
             ellipse = TRUE,       #jangan tampilkan elips
             main = "Hasil Analisis Cluster Non-Hierarki (K-Means)",
             palette = "jco",
             repel=TRUE)

Penjelasan source code:
- fviz_nbclust(…, method=“silhouette”), menggunakan Silhouette Method untuk menentukan jumlah klaster optimal. Nilai silhouette tertinggi menunjukkan pemisahan klaster terbaik.
- set.seed(123), memastikan hasil konsisten.
- kmeans(datastand, centers=k, nstart=25), memulai K-Means dengan 25 inisialisasi berbeda untuk menghindari lokal optimum.
- Data1$Cluster, Menambahkan kolom baru Cluster pada data berisi label klaster masing-masing kabupaten.
- fviz_cluster(), menghasilkan plot 2D berdasarkan PCA internal factoextra.
- ellipse=TRUE, menampilkan batas klaster.

#MDS
#1. Hitung jarak antar data
jarak_mds <- dist(datastand, method = "euclidean")

#2. Lakukan analisis MDS
mds_result <- cmdscale(jarak_mds, k = 2, eig = TRUE)  #k = 2 artinya 2 dimensi (X dan Y)

#3. Ubah ke data frame untuk visualisasi
mds_data <- as.data.frame(mds_result$points)
colnames(mds_data) <- c("Dim1", "Dim2")
mds_data$Cluster <- Data1$Cluster  #ambil hasil cluster dari K-Means

#4. Visualisasi hasil MDS
library(ggplot2)
ggplot(mds_data, aes(x = Dim1, y = Dim2, color = Cluster)) +
  geom_point(size = 3) +
  labs(title = "Peta Persebaran Hasil Analisis MDS",
       x = "Dimensi 1",
       y = "Dimensi 2") +
  theme_minimal() +
  theme(plot.title = element_text(hjust=0.5))

Penjelasan source code:
- jarak_mds, menyimpan jarak Euclidean antar objek sebagai input utama.
- cmdscale(), melakukan Classical MDS yaitu emetakan objek dari ruang multivariat (3 variabel) menjadi ruang 2 dimensi sehingga pola jarak tetap dipertahankan.
- eig=TRUE, menampilkan nilai eigen yang bisa digunakan untuk melihat stress dan menilai kualitas pemetaan.
- mds_data, menyimpan koordinat dimensi 1 dan dimensi 2 hasil MDS dan menambahkan label klaster (dari K-Means) untuk visualisasi.
- ggplot, mengaktifkan paket untuk membuat peta persebaran objek dengan menyimpan warna sebagai klaster dan titik sebagai posisi relatif daerah berdasarkan kedekatannya.

Hasil dan Pembahasan

1. Analisis Cluster Hierarki

knitr::include_graphics("C:/Users/Thia/Downloads/AnMul/dist1.png")

knitr::include_graphics("C:/Users/Thia/Downloads/AnMul/dist2.png")

knitr::include_graphics("C:/Users/Thia/Downloads/AnMul/dist3.png")

knitr::include_graphics("C:/Users/Thia/Downloads/AnMul/Euclidean.png")

knitr::include_graphics("C:/Users/Thia/Downloads/AnMul/Manhattan.png")

knitr::include_graphics("C:/Users/Thia/Downloads/AnMul/Mahalanobis.png")

Hasil Analisis:
Euclidian, hasil pengelompokan menggunakan jarak Euclidean menunjukkan bahwa mayoritas objek bergabung secara bertahap (chaining effect). Pada dendrogram tampak bahwa beberapa objek seperti 26, 27, 28 memiliki kedekatan yang konsisten sehingga bergabung pada level ketinggian yang rendah. Hal ini menggambarkan bahwa data memiliki dua kelompok besar, karena penggabungan pada level tinggi menunjukkan jarak yang relatif jauh antara dua kelompok utama tersebut.

Manhattan, pada hasil dendogram Manhattan terlihat bahwa variasi jarak antar objek lebih besar dibanding Euclidean, Chaining effect masih tampak, namun pemisahan antar kelompok menjadi lebih jelas. Objek yang sebelumnya dekat pada metode Euclidean, seperti (26, 28), tetap mengelompok bersama dan menunjukkan stabilitas klaster.

Mahalanobis, metode Mahalanobis mempertimbangkan korelasi antar variabel, sehingga lebih sensitif terhadap hubungan linier dalam data. Hasil dendrogram menunjukkan pemisahan yang paling tegas dibanding dua metode sebelumnya. Dua klaster besar konsisten seperti pada dua metode jarak sebelumnya.

Interpretasi:
Dari ketiga dendrogram, dapat disimpulkan bahwa data cenderung membentuk dua klaster utama secara konsisten, kelompok tertentu (misalnya objek 26, 27, 28) stabil berada dalam klaster yang sama di ketiga pendekatan, dan sensitivitas jarak berbeda menghasilkan variasi ketinggian penggabungan, tetapi struktur secara makro tetap sama.
Dengan demikian, hasil hierarki mendukung bahwa data memiliki pola pengelompokan yang kuat dan relatif stabil.

2. Analisis Cluster Non-Hierarki

knitr::include_graphics("C:/Users/Thia/Downloads/AnMul/Cluster.png")

knitr::include_graphics("C:/Users/Thia/Downloads/AnMul/K-Means.png")

Hasil Analisis:
Visualisasi hasil K-Means menunjukkan bahwa dua klaster terpisah dengan jelas pada ruang komponen utama (dimensi 1 dan dimensi 2). Dimensi pertama menjelaskan sekitar 68.7% variasi data, sehingga menjadi pemisah utama antar klaster.

Karakteristik klaster 1 (biru) merupakan kelompok besar dan tersebar luas, mengindikasikan wilayah dengan karakteristik indikator yang lebih moderat atau berada pada nilai tengah, sedangkan klaster 2 (kuning) merupakan kelompok lebih kecil namun kompak, wilayahnya memiliki nilai indikator yang secara signifikan berbeda (lebih tinggi atau lebih rendah).

Interpretasi:
K-Means menghasilkan dua klaster yang konsisten dengan hasil hierarki. Hal ini memperkuat kesimpulan bahwa struktur data memang secara alami terbagi menjadi dua kelompok utama.

3. Multidimensional Scaling (MDS)

knitr::include_graphics("C:/Users/Thia/Downloads/AnMul/MDS.png")

Hasil Analisis:
Plot MDS memperlihatkan bahwa klaster 1 (merah) dominan berada di sisi kanan, sedangkan klaster 2 (biru) tersebar di sisi kiri dan tengah. Titik-titik yang berada di tengah merupakan objek borderline, tetapi sebagian besar observasi memiliki jarak yang jelas antar klaster.

Interpretasi:
Struktur klaster di MDS selaras dengan K-Means, menunjukkan bahwa pemisahan klaster terjadi terutama pada dimensi 1, kelompok-kelompok tampak terpisah jelas meskipun divisualisasikan hanya dalam 2 dimensi, dan validitas klaster meningkat karena tiga metode (Hierarki, K-Means, dan MDS) menghasilkan pola yang serupa.

Penutup

Kesimpulan:

Analisis cluster hierarki menggunakan jarak Euclidean, Manhattan, dan Mahalanobis menunjukkan bahwa struktur data secara konsisten membentuk dua klaster utama. Objek-objek tertentu memiliki kedekatan yang stabil pada ketiga pendekatan, menandakan bahwa sifat indikator pembangunan tersebut memiliki pola yang jelas dan berulang. Kemudian, analisis non-hierarki dengan metode K-Means menguatkan temuan tersebut, di mana hasil silhouette mengindikasikan bahwa k = 2 merupakan jumlah klaster terbaik. Pengelompokan K-Means menghasilkan pembagian wilayah yang lebih tegas, dengan klaster pertama berisi wilayah-wilayah dengan karakteristik pembangunan menengah, sedangkan klaster kedua dihuni oleh wilayah yang menunjukkan karakteristik pembangunan yang lebih menonjol (baik lebih tinggi maupun lebih rendah).

Selanjutnya, visualisasi Multidimensional Scaling (MDS) berhasil menggambarkan pola penyebaran objek dalam dua dimensi, sehingga memudahkan interpretasi kedekatan antar kabupaten/kota. Hasil MDS konsisten dengan klaster yang terbentuk pada K-Means, di mana klaster pertama dan kedua terlihat terpisah dengan jelas pada sumbu Dimensi 1.

Secara keseluruhan, ketiga metode analisis menunjukkan konsistensi hasil. Hal ini menunjukkan bahwa indikator TPT, jumlah UMKM, dan IPM memang memiliki pola pengelompokan alami dalam membedakan karakteristik pembangunan antar wilayah di Jawa Timur. Hasil penelitian ini dapat menjadi dasar bagi pemerintah daerah dalam menyusun kebijakan pembangunan yang lebih terarah, khususnya dalam mengidentifikasi wilayah dengan kebutuhan intervensi berbeda.

Saran:
Dalam memperkaya hasil analisis, penelitian tersebut dapat dilengkapi dengan: 1. Penelitian selanjutnya dapat menambah variabel baru untuk memperoleh gambaran pembangunan yang lebih lengkap. Variabel seperti tingkat kemiskinan, PDRB per kapita, indeks gini, atau akses pendidikan dapat ditambahkan sehingga klaster menjadi lebih representatif. 2. Menggunakan metode validasi tambahan seperti Dunn Index atau Davies–Bouldin Index dapat digunakan untuk memastikan pemilihan jumlah klaster secara lebih objektif. 3. Melakukan pemetaan berbasis Sistem Informasi Geografis (SIG) untuk memberikan visualisasi spasial yang lebih informatif untuk perencanaan pembangunan. 5. Melakukan analisis profil klaster sehingga karakteristik masing-masing klaster dapat dimaknai lebih jelas untuk kepentingan kebijakan.

Daftar Pustaka

  1. Hair Jr., Joseph F., Black, William C., Babin, Barry J., Anderson, Rolph E. (2019). Multivariate Data Analysis (Eight Edition). Andover: Cengage.
  2. Sholihah, R. M., Rozi, F. (2025). Penerapan K-Means Clustering dengan Evaluasi V-Measure untuk Pengelompokan Wilayah Berdasarkan Potensi Sumber Kesejahteraan Sosial. Jurnal Riset Mahasiswa Matematika.
  3. Wahyuni, Molli, dkk. (2023). Book Chapter STATISTIK MULTIVARIAT. Yogyakarta: Nuta Media.