Pembangunan daerah merupakan salah satu fokus utama Pemerintah Provinsi Jawa Timur. Kondisi sosial ekonomi di tiap kabupaten/kota dapat diamati melalui beberapa indikator seperti, Tingkat Pengangguran Terbuka (TPT), jumlah pelaku Usaha Mikro Kecil dan Menengah (UMKM), dan Indeks Pembangunan Manusia (IPM). Perbedaan nilai indikator menggambarkan adanya ketimbangan antar wilayah yang apabila tidak dipetakan dengan baik dapat menghambat perencanaan pembangunan yang efektif dan tepat sasaran.
Berdasarkan data yang diperoleh melalui https://shorturl.at/nLfEo, menunjukkan bahwa masih terdapat beberapa kabupaten/kota dengan TPT yang cukup tinggi dan IPM yang relatif tertinggal. Namun, di sisi lain terdapat kabupaten/kota dengan kondisi sosial ekonomi yang lebih baik. Berdasarkan situasi ini menandakan pentingnya melakukan pemetaan kelompok wilayah berdasarkan kemiripan karakteristik sosial ekonomi.
Salah satu pendekatan yang dapat digunakan adalah analisis cluster, yaitu teknik statistik multivariat yang bertujuan mengelompokkan objek ke dalam beberapa cluster sehingga objek dalam cluster yang sama relatif homogen, sedangkan antar cluster relatif heterogen. Dengan dilakukannya pengelompokan ini, maka pemerintah dapat mengetahui wilayah yang perlu diprioritaskan dan wilayah yang dapat difokuskan untuk penguatan daya saing.| PROVINSI | TPT | UMKM | IPM |
|---|---|---|---|
| Pacitan | 3.65 | 46807 | 70.19 |
| Ponorogo | 5.51 | 21739 | 72.59 |
| Trenggalek | 5.37 | 28358 | 71.28 |
| Tulungagung | 6.65 | 26359 | 74.14 |
| Blitar | 5.45 | 33932 | 72.25 |
| Kediri | 6.83 | 20159 | 74.20 |
| Variabel | Keterangan |
|---|---|
| TPT | Tingkat Pengangguran Terbuka Penduduk Usia 15 Tahun Ke Atas Menurut Kabupaten/Kota di Jawa Timur (%) |
| UMKM | Banyaknya Usaha/Perusahaan Industri Pengolahan Mikro dan Kecil menurut Provinsi dan Kelompok Pekerja di Jawa Timur |
| IPM | Indeks Pembangunan Manusia (IPM) |
Analisis cluster merupakan salah satu teknik interdependensi yang dapat menggambarkan kedekatan jarak atau kemiripan antara objek dan variabel (Nafisah, 2017). Analisis cluster dibagi menajdi dua metode, yaitu hirarki dan nonhirarki.
Pada analisis cluster hierarki terdapat dua metode yaitu:
Metode Agglomerative: Setiap subjek atau objek yang awalnya berada di cluster masing-masing secara terpisah, kemudian dua cluster yang paling mirip disatukan dan dilakukan berualng kali.
Metode Divisive: Semua subjek atau objek awalnya dalam satu cluster yang sama kemudian dipidahkan bertahan hingga berada di cluster masing-masing secara terpisah.
Dalam analisis cluster terdapat jarak yang menentukan seberapa mirip dua objek dalam set data. Terdapat tiga ukuran jarak, yaitu:
Jarak Euclidian \[ d_E(\mathbf{x}, \mathbf{y}) = \sqrt{\sum_{i=1}^{p} (x_i - y_i)^2} \]
Jarak Manhattan \[ d_M(\mathbf{x}, \mathbf{y}) = \sum_{i=1}^{p} |x_i - y_i| \]
Jarak Mahalanobis \[ d_{Mah}(\mathbf{x}, \mathbf{y}) = \sqrt{ (\mathbf{x} - \mathbf{y})^\top \mathbf{S}^{-1} (\mathbf{x} - \mathbf{y}) } \]
Dalam analisis cluster hierarki terdapat metode penggabungan (linkage) yang digunakan untuk menentukan jarak antar klaster dihitung pada analisis klaster hierarki. Terdapat lima metode linkage, yaitu:
Single linkage \[ D_{\text{single}}(A, B) = \min_{i \in A,\, j \in B} d(i,j) \]
Complete linkage \[ D_{\text{complete}}(A, B) = \max_{i \in A,\, j \in B} d(i,j) \]
Average linkage \[ D_{\text{average}}(A, B) = \frac{1}{|A|\,|B|} \sum_{i \in A} \sum_{j \in B} d(i,j) \]
Ward’s Method \[ \Delta(A, B) = \frac{|A||B|}{|A| + |B|} \left\| \mathbf{c}_A - \mathbf{c}_B \right\|^2 \]
Centroid Method \[ D_{\text{centroid}} = \left\| \mathbf{c}_A - \mathbf{c}_B \right\| \] dengan \(\mathbf{c}_A\) dan \(\mathbf{c}_B\) adalah centroid cluster A dan B.
Dalam analisis cluster terdapat beberapa asumsi, diantaranya:
\[ \text{KMO} = \frac{\sum\sum r_{ij}^2} {\sum\sum r_{ij}^2 + \sum\sum q_{ij}^2} \] dengan \(r_{ij}\) adalah korelasi antar variabel dan \(q_{ij}\) adalah korelasi parsialnya.
Hipotesis Uji KMO
- \(H_0\): Sampel tidak representatif
(KMO < 0.5)
- \(H_1\): Sampel representatif (KMO ≥
0.5)
KMO ≥ 0.5 maka data memadai untuk dilakukan pengelompokan.
\[ \text{VIF}_j = \frac{1}{1 - R_j^2} \] dengan \(R_j^2\) adalah koefisien determinasi hasil regresi variabel ke-\(j\) terhadap variabel lain.
Hipotesis Uji VIF
- \(H_0\): Tidak terdapat
multikolinearitas (VIF ≤ 10)
- \(H_1\): Terdapat multikolinearitas
(VIF > 10)
Semua variabel memiliki VIF ≤ 10, maka data tidak memiliki multikolinearitas yang mengganggu dan layak digunakan untuk analisis cluster.
Dalam analisis cluster terdapat indeks validasi cluster yang digunakan untuk mengevaluasi hasil analisis dan menentukan cluster yang optimal. Terdapat beberapa indeks validasi, yaitu:
library(readxl) # digunakan untuk membaca file excel
library(dplyr) # digunakan untuk memanipulasi data
library(cluster) # digunakan untuk analisis cluster
library(factoextra) # digunakan untuk visualisasi cluster
library(psych) # digunakan untuk KMO dan korelasi
library(clValid) # digunakan untuk uji connectivity
library(ggplot2) # digunakan untuk membuat grafik
library(dendextend) # digunakan untuk memodifikasi dendrogram
library(car) # digunakan untuk uji asumsi multikolinearitas
data <- read_excel("DATA_JATIM.xlsx")
head(data)
## # A tibble: 6 × 4
## PROVINSI TPT UMKM IPM
## <chr> <dbl> <dbl> <dbl>
## 1 Pacitan 3.65 46807 70.2
## 2 Ponorogo 5.51 21739 72.6
## 3 Trenggalek 5.37 28358 71.3
## 4 Tulungagung 6.65 26359 74.1
## 5 Blitar 5.45 33932 72.2
## 6 Kediri 6.83 20159 74.2
datac <- data %>% select(TPT, UMKM, IPM)
summary(datac)
## TPT UMKM IPM
## Min. :1.360 Min. : 2009 Min. :65.44
## 1st Qu.:4.343 1st Qu.:13122 1st Qu.:70.34
## Median :5.315 Median :21231 Median :73.33
## Mean :5.273 Mean :23013 Mean :74.00
## 3rd Qu.:6.338 3rd Qu.:30988 3rd Qu.:77.23
## Max. :8.800 Max. :67609 Max. :83.38
datac <- data.frame(datac)
Uji_KMO <- KMO(datac)
Interpretasi:
Nilai KMO > 0.5 menandakan data cukup layak untuk dianalisis lebih
lanjut.
vif_all <- sapply(colnames(datac), function(var){
formula <- as.formula(paste(var, "~ ."))
model <- lm(formula, data = datac)
max(vif(model))
})
vif_table <- data.frame(
Variabel = names(vif_all),
VIF = round(as.numeric(vif_all), 3)
)
dist <- dist(datac, method = "euclidean")
hc <- hclust(dist, method = "single")
d <- cophenetic(hc)
corave <- cor(dist,d)
corave
## [1] 0.7363283
methods <- c("single", "complete", "average", "ward.D2")
cor_values <- sapply(methods, function(m) {
hc_all <- hclust(dist, method = m)
d_coph <- cophenetic(hc_all)
cor(dist, d_coph)
})
cor_values
## single complete average ward.D2
## 0.7363283 0.6893307 0.7726011 0.6659320
inval <- clValid(datac,2:6, clMethods = "hierarchical",
validation = "internal", metric = "euclidean", method ="single")
summary(inval)
##
## Clustering Methods:
## hierarchical
##
## Cluster sizes:
## 2 3 4 5 6
##
## Validation Measures:
## 2 3 4 5 6
##
## hierarchical Connectivity 3.0290 7.8909 13.2405 16.4679 19.4052
## Dunn 0.4135 0.1785 0.1154 0.1242 0.1408
## Silhouette 0.6063 0.4852 0.4703 0.4292 0.3496
##
## Optimal Scores:
##
## Score Method Clusters
## Connectivity 3.0290 hierarchical 2
## Dunn 0.4135 hierarchical 2
## Silhouette 0.6063 hierarchical 2
clus_hier <- eclust(datac, FUNcluster = "hclust", k = 2,
hc_method = "single", graph = TRUE)
fviz_dend(clus_hier, rect = TRUE, cex = 0.5)
Berikut ciplikan data dari varibel yang dipilih:
kable(head(data), caption = "Cuplikan Data Variabel yang Digunakan")
| PROVINSI | TPT | UMKM | IPM |
|---|---|---|---|
| Pacitan | 3.65 | 46807 | 70.19 |
| Ponorogo | 5.51 | 21739 | 72.59 |
| Trenggalek | 5.37 | 28358 | 71.28 |
| Tulungagung | 6.65 | 26359 | 74.14 |
| Blitar | 5.45 | 33932 | 72.25 |
| Kediri | 6.83 | 20159 | 74.20 |
Tabel di atas menunjukkan enam baris pertama dari data yang digunakan yaitu TPT (Tingkat Pengangguran Terbuka), banyaknya UMKM (Usaha Mikro Kecil Menengah), dan IPM (Indeks Pembangunan Manusia). Seluruh variabel merupakan variabel kuantitatif dan memiliki skala rasio. Data tersebut perlu dilakukan uji asumsi untuk mengetahui kelayakannya dalam uji analisis cluster.
Uji Asumsi Representativitas Sample dengan Kaiser-Meyer-Olkin (KMO)
Uji_KMO <- KMO(datac)
Hipotesis Uji KMO
- \(H_0\): Sampel tidak representatif
(KMO < 0.5)
- \(H_1\): Sampel representatif (KMO ≥
0.5)
Berdasarkan hasil perhitungan nilai KMO, seluruh variabel memiliki nilai KMO ≥ 0.5. Oleh karena itu, sampel pada setiap variabel telah memenuhi kriteria kelayakan dan representatif untuk digunakan dalam analisis lebih lanjut.
Uji Asumsi Non-Multikolinearitas
kable(vif_table, caption = "Hasil Perhitungan VIF untuk Setiap Variabel")
| Variabel | VIF |
|---|---|
| TPT | 1.554 |
| UMKM | 1.428 |
| IPM | 1.243 |
Hipotesis Uji VIF
- \(H_0\): Tidak terdapat
multikolinearitas (VIF ≤ 10)
- \(H_1\): Terdapat multikolinearitas
(VIF > 10) Berdasarkan tabel di atas, diketahui bahwa nilai VIF <
10, maka dapat disimpulkan bahwa data tidak terdapat multikolinearitas
sehingga dapat dilakukan untuk uji analisis cluster.
Selanjutnya dilakukan Analisis Cluster Hirarki
tabel_metode <- data.frame(
Metode = c("Single", "Commplete", "Average", "Wards"),
Korelasi_Cophenetic = c("0.736", "0.689", "0.772 (tertinggi)", "0.665"
)
)
kable(tabel_metode, caption = "Hasil Korelasi Cophenetic")
| Metode | Korelasi_Cophenetic |
|---|---|
| Single | 0.736 |
| Commplete | 0.689 |
| Average | 0.772 (tertinggi) |
| Wards | 0.665 |
Berdasarkan tabel di atas, diketahui bahwa metode tertinggi adalah average linkage sehingga metode yang paling baik dalam merepresentasikan struktur jarak asli antar objek adalah metode average linkage. Namun, dalam analisis ini digunakan metode single linkage.
tabel_validitas <- data.frame(
Indeks = c("Connectivity", "Dunn", "Silhouette"),
Nilai = c("3.029 (2 cluster)", "0.4135 (2 cluster)", "0.6063 (2 cluster)")
)
kable(tabel_validitas, caption = "Validitas Cluster")
| Indeks | Nilai |
|---|---|
| Connectivity | 3.029 (2 cluster) |
| Dunn | 0.4135 (2 cluster) |
| Silhouette | 0.6063 (2 cluster) |
Berdasarkan hasil validitas cluster di atas menunjukkan bahwa 2 cluster merupakan jumlah yang paling optimal dengan kualitas pengelompokan yang terbaik.
clus_hier <- eclust(datac, FUNcluster = "hclust", k = 2,
hc_method = "single", graph = TRUE)
fviz_dend(clus_hier, rect = TRUE, cex = 0.5)
Berdasarkan dendogram pada hasil ini dengan pemotongan pada k = 2 memperlihatkan bahwa:
Cluster 1 berisi kota/kabupaten dengan nilai TPT, UMKM, dan IPM yang cenderung rendah hingga sedang.
Cluster 2 berisi kota/kabupaten dengan karakteristik nilai UMKM yang jauh lebih besar.
Secara visual terlihat hanya ada satu kelompok besar dengan nilai indikator ekonomi yang relatif homogen dan satu kelompok lainnya yang memiliki nilai jauh lebih tinggi sehingga membentuk cabang tersendiri di dendogram.
Cluster ini memiliki banyak UMKM berada pada kisaran menengah, TPT relatif tidak terlalu tinggi, dan IPM cenderung pada kisaran rata-rata. Cluster ini cenderung mencerminkan daerah dengan perkembangan ekonomi dan kualitas SDM yang stabil namun tidak menonjol.
Cluster ini memiliki UMKM yang tinggi dibanding daerah lain, nilai IPM juga cenderung lebih tinggi. Cluster ini menggambarkan wilayah yang memiliki aktivitas ekonomi lebih besar serta tingkat pembangunan manusia yang lebih baik.
Berdasarkan hasil penelitian maka dapat disimpulkan bahwa:
Data memenuhi seluruh asumsi untuk dilakukan analisis cluster.
Metode terbaik berdasarkan korelasi cophenetic adalah average linkage, namun analisis validitas menunjukkan bahwa jumlah cluster terbaik adalah k = 2 dengan metode single linkage.
Cluster 1 adalah wilayah dengan tingkat UMKM, TPT, dan IPM yang lebih moderat sedangkan cluster 2 adalah wilayah dengan tingkat UMKM dan IPM lebih tinggi.
Sehingga dapat diketahui bahwa analisis berhasil mengelompokkan wilayah di Jawa Timur berdasarkan indikator ekonomi (UMKM) dan sosial (IPM dan TPT).
Penelitian selanjutnya disarankan untuk menambah variabel lain yang relevan sehingga dapat memberikan gambaran cluster yang lebih komprehensif terkait karakteristik sosial-ekonomi wilayah.
Menguji menggunakan beberapa metode penggabungan / pengelompokan untuk dilakukan perbandingan sehingga dapat melihat stabilitas serta konsistensi hasil pengelompokan.
Melakukan standardisasi data untuk memastikan bahwa variabel dengan skala besar tidak terlalu mendominasi proses pembentukan cluster.
Hasil cluster dapat dijadikan dasar rekomendasi bagi pemerintah daerah atau instansi terkait.
Ghaisani, S. Y., Hikmah, N., Prasetyo, A. H., & Widodo, E. (2019). Analisis cluster hirarki untuk pengelompokan provinsi di Indonesia berdasarkan indikator demokrasi Indonesia tahun 2016. Prosiding Konferensi Nasional Penelitian Matematika dan Pembelajarannya.
Nafisah, Q., & Chandra, N. E. (2017). Analisis Cluster Average Linkage Berdasarkan Faktor-Faktor Kemiskinan di Provinsi Jawa Timur. Zeta-Math Journal, 3(2), 31-36.