Pendahuluan

Latar Belakang Kasus

Pembangunan daerah merupakan salah satu fokus utama Pemerintah Provinsi Jawa Timur. Kondisi sosial ekonomi di tiap kabupaten/kota dapat diamati melalui beberapa indikator seperti, Tingkat Pengangguran Terbuka (TPT), jumlah pelaku Usaha Mikro Kecil dan Menengah (UMKM), dan Indeks Pembangunan Manusia (IPM). Perbedaan nilai indikator menggambarkan adanya ketimbangan antar wilayah yang apabila tidak dipetakan dengan baik dapat menghambat perencanaan pembangunan yang efektif dan tepat sasaran.

Berdasarkan data yang diperoleh melalui https://shorturl.at/nLfEo, menunjukkan bahwa masih terdapat beberapa kabupaten/kota dengan TPT yang cukup tinggi dan IPM yang relatif tertinggal. Namun, di sisi lain terdapat kabupaten/kota dengan kondisi sosial ekonomi yang lebih baik. Berdasarkan situasi ini menandakan pentingnya melakukan pemetaan kelompok wilayah berdasarkan kemiripan karakteristik sosial ekonomi.

Salah satu pendekatan yang dapat digunakan adalah analisis cluster, yaitu teknik statistik multivariat yang bertujuan mengelompokkan objek ke dalam beberapa cluster sehingga objek dalam cluster yang sama relatif homogen, sedangkan antar cluster relatif heterogen. Dengan dilakukannya pengelompokan ini, maka pemerintah dapat mengetahui wilayah yang perlu diprioritaskan dan wilayah yang dapat difokuskan untuk penguatan daya saing.

Sumber Data dan Penjelasan Variabel

Cuplikan Data JATIM
PROVINSI	TPT	UMKM	IPM
Pacitan	3.65	46807	70.19
Ponorogo	5.51	21739	72.59
Trenggalek	5.37	28358	71.28
Tulungagung	6.65	26359	74.14
Blitar	5.45	33932	72.25
Kediri	6.83	20159	74.20

Keterangan Variabel Penelitian
Variabel	Keterangan
TPT	Tingkat Pengangguran Terbuka Penduduk Usia 15 Tahun Ke Atas Menurut Kabupaten/Kota di Jawa Timur (%)
UMKM	Banyaknya Usaha/Perusahaan Industri Pengolahan Mikro dan Kecil menurut Provinsi dan Kelompok Pekerja di Jawa Timur
IPM	Indeks Pembangunan Manusia (IPM)

Metode Analisis

Analisis cluster merupakan salah satu teknik interdependensi yang dapat menggambarkan kedekatan jarak atau kemiripan antara objek dan variabel (Nafisah, 2017). Analisis cluster dibagi menajdi dua metode, yaitu hirarki dan nonhirarki.

Pada analisis cluster hierarki terdapat dua metode yaitu:

Metode Agglomerative: Setiap subjek atau objek yang awalnya berada di cluster masing-masing secara terpisah, kemudian dua cluster yang paling mirip disatukan dan dilakukan berualng kali.
Metode Divisive: Semua subjek atau objek awalnya dalam satu cluster yang sama kemudian dipidahkan bertahan hingga berada di cluster masing-masing secara terpisah.

Dalam analisis cluster terdapat jarak yang menentukan seberapa mirip dua objek dalam set data. Terdapat tiga ukuran jarak, yaitu:

Jarak Euclidian \[ d_E(\mathbf{x}, \mathbf{y}) = \sqrt{\sum_{i=1}^{p} (x_i - y_i)^2} \]
Jarak Manhattan \[ d_M(\mathbf{x}, \mathbf{y}) = \sum_{i=1}^{p} |x_i - y_i| \]
Jarak Mahalanobis \[ d_{Mah}(\mathbf{x}, \mathbf{y}) = \sqrt{ (\mathbf{x} - \mathbf{y})^\top \mathbf{S}^{-1} (\mathbf{x} - \mathbf{y}) } \]

Dalam analisis cluster hierarki terdapat metode penggabungan (linkage) yang digunakan untuk menentukan jarak antar klaster dihitung pada analisis klaster hierarki. Terdapat lima metode linkage, yaitu:

Single linkage \[ D_{\text{single}}(A, B) = \min_{i \in A,\, j \in B} d(i,j) \]
Complete linkage \[ D_{\text{complete}}(A, B) = \max_{i \in A,\, j \in B} d(i,j) \]
Average linkage \[ D_{\text{average}}(A, B) = \frac{1}{|A|\,|B|} \sum_{i \in A} \sum_{j \in B} d(i,j) \]
Ward’s Method \[ \Delta(A, B) = \frac{|A||B|}{|A| + |B|} \left\| \mathbf{c}_A - \mathbf{c}_B \right\|^2 \]
Centroid Method \[ D_{\text{centroid}} = \left\| \mathbf{c}_A - \mathbf{c}_B \right\| \] dengan \(\mathbf{c}_A\) dan \(\mathbf{c}_B\) adalah centroid cluster A dan B.

Dalam analisis cluster terdapat beberapa asumsi, diantaranya:

Uji Representative Sample

\[ \text{KMO} = \frac{\sum\sum r_{ij}^2} {\sum\sum r_{ij}^2 + \sum\sum q_{ij}^2} \] dengan \(r_{ij}\) adalah korelasi antar variabel dan \(q_{ij}\) adalah korelasi parsialnya.

Hipotesis Uji KMO
- \(H_0\): Sampel tidak representatif (KMO < 0.5)
- \(H_1\): Sampel representatif (KMO ≥ 0.5)

KMO ≥ 0.5 maka data memadai untuk dilakukan pengelompokan.

Uji Non Multikolinearitas

\[ \text{VIF}_j = \frac{1}{1 - R_j^2} \] dengan \(R_j^2\) adalah koefisien determinasi hasil regresi variabel ke-\(j\) terhadap variabel lain.

Hipotesis Uji VIF
- \(H_0\): Tidak terdapat multikolinearitas (VIF ≤ 10)
- \(H_1\): Terdapat multikolinearitas (VIF > 10)

Semua variabel memiliki VIF ≤ 10, maka data tidak memiliki multikolinearitas yang mengganggu dan layak digunakan untuk analisis cluster.

Dalam analisis cluster terdapat indeks validasi cluster yang digunakan untuk mengevaluasi hasil analisis dan menentukan cluster yang optimal. Terdapat beberapa indeks validasi, yaitu:

Indeks Connectivity \[ \text{Conn} = \sum_{i=1}^{n} \sum_{j=1}^{k} \frac{1}{j} \cdot I(i, n_j(i)) \] dengan:

\(n_j(i)\) adalah tetangga ke-\(j\) dari objek \(i\),
\(I(i, n_j(i)) = 0\) jika keduanya berada dalam cluster yang sama dan 1 jika berbeda.

Indeks Silhouette \[ s(i) = \frac{b(i) - a(i)}{\max(a(i), b(i))} \] dengan:

\(a(i)\): rata-rata jarak objek \(i\) ke semua objek dalam cluster yang sama
\(b(i)\): jarak minimum objek \(i\) ke cluster lain (cluster terdekat)

Indeks Dunn \[ D = \frac{\min\limits_{1 \leq i < j \leq k} \delta(C_i, C_j)} {\max\limits_{1 \leq l \leq k} \Delta(C_l)} \] dengan:

\(\delta(C_i, C_j)\) = jarak minimum antar cluster \(C_i\) dan \(C_j\),
\(\Delta(C_l)\) = diameter maksimum dalam cluster \(C_l\).

Source Code

library(readxl)       # digunakan untuk membaca file excel
library(dplyr)        # digunakan untuk memanipulasi data
library(cluster)      # digunakan untuk analisis cluster
library(factoextra)   # digunakan untuk visualisasi cluster
library(psych)        # digunakan untuk KMO dan korelasi
library(clValid)      # digunakan untuk uji connectivity
library(ggplot2)      # digunakan untuk membuat grafik
library(dendextend)   # digunakan untuk memodifikasi dendrogram
library(car)          # digunakan untuk uji asumsi multikolinearitas

Impor Data

data <- read_excel("DATA_JATIM.xlsx")
head(data)

## # A tibble: 6 × 4
##   PROVINSI      TPT  UMKM   IPM
##   <chr>       <dbl> <dbl> <dbl>
## 1 Pacitan      3.65 46807  70.2
## 2 Ponorogo     5.51 21739  72.6
## 3 Trenggalek   5.37 28358  71.3
## 4 Tulungagung  6.65 26359  74.1
## 5 Blitar       5.45 33932  72.2
## 6 Kediri       6.83 20159  74.2

datac <- data %>% select(TPT, UMKM, IPM)
summary(datac)

##       TPT             UMKM            IPM       
##  Min.   :1.360   Min.   : 2009   Min.   :65.44  
##  1st Qu.:4.343   1st Qu.:13122   1st Qu.:70.34  
##  Median :5.315   Median :21231   Median :73.33  
##  Mean   :5.273   Mean   :23013   Mean   :74.00  
##  3rd Qu.:6.338   3rd Qu.:30988   3rd Qu.:77.23  
##  Max.   :8.800   Max.   :67609   Max.   :83.38

datac <- data.frame(datac)

Pemeriksaan Asumsi

1. Uji Representativitas Sampel (KMO)

Uji_KMO <- KMO(datac)

Interpretasi:
Nilai KMO > 0.5 menandakan data cukup layak untuk dianalisis lebih lanjut.

2. Uji Non Multikolinearitas

vif_all <- sapply(colnames(datac), function(var){
  formula <- as.formula(paste(var, "~ ."))
  model <- lm(formula, data = datac)
  max(vif(model))
})

vif_table <- data.frame(
  Variabel = names(vif_all),
  VIF = round(as.numeric(vif_all), 3)
)

Analisis Cluster Hierarki

dist <- dist(datac, method = "euclidean")
hc <- hclust(dist, method = "single")
d <- cophenetic(hc)
corave <- cor(dist,d)
corave

## [1] 0.7363283

Korelasi Cophenetic Antar Metode

methods <- c("single", "complete", "average", "ward.D2")
cor_values <- sapply(methods, function(m) {
  hc_all <- hclust(dist, method = m)
  d_coph <- cophenetic(hc_all)
  cor(dist, d_coph)
})
cor_values

##    single  complete   average   ward.D2 
## 0.7363283 0.6893307 0.7726011 0.6659320

Indeks Validitas

inval <- clValid(datac,2:6, clMethods = "hierarchical",
          validation = "internal", metric = "euclidean", method ="single")
summary(inval)

## 
## Clustering Methods:
##  hierarchical 
## 
## Cluster sizes:
##  2 3 4 5 6 
## 
## Validation Measures:
##                                  2       3       4       5       6
##                                                                   
## hierarchical Connectivity   3.0290  7.8909 13.2405 16.4679 19.4052
##              Dunn           0.4135  0.1785  0.1154  0.1242  0.1408
##              Silhouette     0.6063  0.4852  0.4703  0.4292  0.3496
## 
## Optimal Scores:
## 
##              Score  Method       Clusters
## Connectivity 3.0290 hierarchical 2       
## Dunn         0.4135 hierarchical 2       
## Silhouette   0.6063 hierarchical 2

Visualisasi Dendogram

clus_hier <- eclust(datac, FUNcluster = "hclust", k = 2,
            hc_method = "single", graph = TRUE)
fviz_dend(clus_hier, rect = TRUE, cex = 0.5)

Hasil dan Pembahasan

Berikut ciplikan data dari varibel yang dipilih:

kable(head(data), caption = "Cuplikan Data Variabel yang Digunakan")

Cuplikan Data Variabel yang Digunakan
PROVINSI	TPT	UMKM	IPM
Pacitan	3.65	46807	70.19
Ponorogo	5.51	21739	72.59
Trenggalek	5.37	28358	71.28
Tulungagung	6.65	26359	74.14
Blitar	5.45	33932	72.25
Kediri	6.83	20159	74.20

Tabel di atas menunjukkan enam baris pertama dari data yang digunakan yaitu TPT (Tingkat Pengangguran Terbuka), banyaknya UMKM (Usaha Mikro Kecil Menengah), dan IPM (Indeks Pembangunan Manusia). Seluruh variabel merupakan variabel kuantitatif dan memiliki skala rasio. Data tersebut perlu dilakukan uji asumsi untuk mengetahui kelayakannya dalam uji analisis cluster.

Uji Asumsi Representativitas Sample dengan Kaiser-Meyer-Olkin (KMO)

Uji_KMO <- KMO(datac)

Hipotesis Uji KMO
- \(H_0\): Sampel tidak representatif (KMO < 0.5)
- \(H_1\): Sampel representatif (KMO ≥ 0.5)

Berdasarkan hasil perhitungan nilai KMO, seluruh variabel memiliki nilai KMO ≥ 0.5. Oleh karena itu, sampel pada setiap variabel telah memenuhi kriteria kelayakan dan representatif untuk digunakan dalam analisis lebih lanjut.

Uji Asumsi Non-Multikolinearitas

kable(vif_table, caption = "Hasil Perhitungan VIF untuk Setiap Variabel")

Hasil Perhitungan VIF untuk Setiap Variabel
Variabel	VIF
TPT	1.554
UMKM	1.428
IPM	1.243

Hipotesis Uji VIF
- \(H_0\): Tidak terdapat multikolinearitas (VIF ≤ 10)
- \(H_1\): Terdapat multikolinearitas (VIF > 10) Berdasarkan tabel di atas, diketahui bahwa nilai VIF < 10, maka dapat disimpulkan bahwa data tidak terdapat multikolinearitas sehingga dapat dilakukan untuk uji analisis cluster.

Selanjutnya dilakukan Analisis Cluster Hirarki

Pemilihan Metode Clustering Berdasarkan Korelasi Cophenetic

tabel_metode <- data.frame(
  Metode = c("Single", "Commplete", "Average", "Wards"),
  Korelasi_Cophenetic = c("0.736", "0.689", "0.772 (tertinggi)", "0.665"
  )
)

kable(tabel_metode, caption = "Hasil Korelasi Cophenetic")

Hasil Korelasi Cophenetic
Metode	Korelasi_Cophenetic
Single	0.736
Commplete	0.689
Average	0.772 (tertinggi)
Wards	0.665

Berdasarkan tabel di atas, diketahui bahwa metode tertinggi adalah average linkage sehingga metode yang paling baik dalam merepresentasikan struktur jarak asli antar objek adalah metode average linkage. Namun, dalam analisis ini digunakan metode single linkage.

Validitas Cluster

tabel_validitas <- data.frame(
  Indeks = c("Connectivity", "Dunn", "Silhouette"),
  Nilai = c("3.029 (2 cluster)", "0.4135 (2 cluster)", "0.6063 (2 cluster)")
)

kable(tabel_validitas, caption = "Validitas Cluster")

Validitas Cluster
Indeks	Nilai
Connectivity	3.029 (2 cluster)
Dunn	0.4135 (2 cluster)
Silhouette	0.6063 (2 cluster)

Berdasarkan hasil validitas cluster di atas menunjukkan bahwa 2 cluster merupakan jumlah yang paling optimal dengan kualitas pengelompokan yang terbaik.

Visualisasi Dendogram

clus_hier <- eclust(datac, FUNcluster = "hclust", k = 2,
            hc_method = "single", graph = TRUE)
fviz_dend(clus_hier, rect = TRUE, cex = 0.5)

Berdasarkan dendogram pada hasil ini dengan pemotongan pada k = 2 memperlihatkan bahwa:

Cluster 1 berisi kota/kabupaten dengan nilai TPT, UMKM, dan IPM yang cenderung rendah hingga sedang.
Cluster 2 berisi kota/kabupaten dengan karakteristik nilai UMKM yang jauh lebih besar.

Secara visual terlihat hanya ada satu kelompok besar dengan nilai indikator ekonomi yang relatif homogen dan satu kelompok lainnya yang memiliki nilai jauh lebih tinggi sehingga membentuk cabang tersendiri di dendogram.

Interpretasi Hasil Clustering

Cluster 1 - Wilayah dengan Karakteristik Ekonomi Menengah

Cluster ini memiliki banyak UMKM berada pada kisaran menengah, TPT relatif tidak terlalu tinggi, dan IPM cenderung pada kisaran rata-rata. Cluster ini cenderung mencerminkan daerah dengan perkembangan ekonomi dan kualitas SDM yang stabil namun tidak menonjol.

Cluster 2 - Wilayah dengan Karakteristik Ekonomi Tinggi

Cluster ini memiliki UMKM yang tinggi dibanding daerah lain, nilai IPM juga cenderung lebih tinggi. Cluster ini menggambarkan wilayah yang memiliki aktivitas ekonomi lebih besar serta tingkat pembangunan manusia yang lebih baik.

Penutup

Kesimpulan

Berdasarkan hasil penelitian maka dapat disimpulkan bahwa:

Data memenuhi seluruh asumsi untuk dilakukan analisis cluster.
Metode terbaik berdasarkan korelasi cophenetic adalah average linkage, namun analisis validitas menunjukkan bahwa jumlah cluster terbaik adalah k = 2 dengan metode single linkage.
Cluster 1 adalah wilayah dengan tingkat UMKM, TPT, dan IPM yang lebih moderat sedangkan cluster 2 adalah wilayah dengan tingkat UMKM dan IPM lebih tinggi.

Sehingga dapat diketahui bahwa analisis berhasil mengelompokkan wilayah di Jawa Timur berdasarkan indikator ekonomi (UMKM) dan sosial (IPM dan TPT).

Saran

Penelitian selanjutnya disarankan untuk menambah variabel lain yang relevan sehingga dapat memberikan gambaran cluster yang lebih komprehensif terkait karakteristik sosial-ekonomi wilayah.
Menguji menggunakan beberapa metode penggabungan / pengelompokan untuk dilakukan perbandingan sehingga dapat melihat stabilitas serta konsistensi hasil pengelompokan.
Melakukan standardisasi data untuk memastikan bahwa variabel dengan skala besar tidak terlalu mendominasi proses pembentukan cluster.
Hasil cluster dapat dijadikan dasar rekomendasi bagi pemerintah daerah atau instansi terkait.

Referensi

Ghaisani, S. Y., Hikmah, N., Prasetyo, A. H., & Widodo, E. (2019). Analisis cluster hirarki untuk pengelompokan provinsi di Indonesia berdasarkan indikator demokrasi Indonesia tahun 2016. Prosiding Konferensi Nasional Penelitian Matematika dan Pembelajarannya.

Nafisah, Q., & Chandra, N. E. (2017). Analisis Cluster Average Linkage Berdasarkan Faktor-Faktor Kemiskinan di Provinsi Jawa Timur. Zeta-Math Journal, 3(2), 31-36.

Analisis Cluster Hierarki pada Kondisi Sosial Ekonomi Jawa Timur

Andina Nastiti Putri Elian

2025-11-30