Indonesia adalah negara yang terdiri dari banyak pulau dan memiliki perbedaan dalam hal kondisi sosial, ekonomi, serta kependudukan di setiap daerahnya. Setiap provinsi memiliki ciri khas dalam pembangunan yang berbeda, yang dapat dilihat dari berbagai indikator seperti persentase penduduk yang tidak mampu, jumlah kasus perceraian, jumlah kota, serta Indeks Pembangunan Manusia (IPM). Perbedaan antarprovinsi ini tidak hanya menunjukkan tingkat kesejahteraan masyarakat, tetapi juga membantu memahami tingkat kemajuan pembangunan serta adanya ketimpangan daerah.
Perbedaan ini penting untuk dianalisis secara menyeluruh. Dengan menggunakan analisis data multivariat, para peneliti dapat melihat pola kesamaan antar provinsi secara bersamaan berdasarkan berbagai variabel. Salah satu metode yang digunakan adalah Analisis Cluster, yaitu teknik statistik yang mengelompokkan objek-objek berdasarkan kesamaan karakteristiknya. Metode ini memungkinkan provinsi-provinsi yang memiliki ciri serupa dikumpulkan ke dalam satu kelompok, sehingga pola pembangunan daerah bisa lebih mudah dipahami.
Dalam konteks ini, metode Cluster Hierarki dipilih karena mampu menampilkan cara pengelompokan secara bertahap melalui grafik dendogram. Dengan demikian, hubungan kesamaan antar provinsi dapat dilihat secara visual dan mudah dipahami. Metode ini juga membantu menunjukkan secara jelas bagaimana provinsi-provinsi di Indonesia dapat dibagi berdasarkan kondisi sosial ekonominya.
Data yang digunakan dalam penelitian ini merupakan data sosial ekonomi tingkat provinsi di Indonesia, yang meliputi:
Persentase Penduduk Miskin (%)
Jumlah Perceraian
Jumlah Kota
Indeks Pembangunan Manusia (IPM)
Data memuat 34 provinsi sebagai unit analisis.
Analisis Cluster adalah cara untuk mengelompokkan objek berdasarkan kecocokan karakteristiknya. Cluster Hierarki mengatur objek dalam bentuk struktur bertingkat dengan cara menggabungkan (agglomerative) atau memisahkan (divisive). Dalam penelitian ini, metode yang digunakan adalah agglomerative, yaitu setiap provinsi awalnya terpisah sebagai satu kelompok, lalu digabungkan secara bertahap berdasarkan jarak yang paling dekat.
Cara ini tidak membutuhkan penentuan jumlah kelompok dari awal, sehingga cocok digunakan ketika pola atau jumlah kelompok dalam data belum jelas. Hasil pengelompokan bisa dilihat melalui dendrogram, yang memudahkan dalam memahami dan menganalisis hubungan antar provinsi.
Analisis Cluster adalah cara untuk mengelompokkan objek berdasarkan kecocokan sifat atau karakteristiknya. Metode Cluster Hierarki mengatur objek dalam bentuk struktur bertingkat dengan menggunakan proses penggabungan (agglomerative) atau pemisahan (divisive). Dalam penelitian ini, metode yang digunakan adalah agglomerative, yaitu setiap provinsi awalnya terpisah sebagai satu kelompok, lalu digabungkan secara bertahap sesuai dengan jarak terdekat antar provinsi.
Metode ini tidak membutuhkan penentuan jumlah kelompok sejak awal, sehingga sangat cocok digunakan ketika pola atau jumlah kelompok dalam data tidak diketahui sebelumnya. Hasil pengelompokan dapat dilihat secara visual melalui dendrogram, yang memudahkan dalam memahami dan memaknai hubungan antar provinsi.
Tujuan dari analisis ini adalah:
Analisis ini menggunakan beberapa library dalam R. Masing-masing memiliki fungsi sebagai berikut:
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.5.1
library(cluster)
library(factoextra)
## Warning: package 'factoextra' was built under R version 4.5.1
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
Data terdiri dari 34 provinsi dengan empat variabel numerik: persentase penduduk miskin, jumlah perceraian, jumlah kota, dan IPM. Data dimasukkan secara manual seperti berikut:
data <- data.frame(
Provinsi = c("ACEH","SUMATERA UTARA","SUMATERA BARAT","RIAU","JAMBI",
"SUMATERA SELATAN","BENGKULU","LAMPUNG","KEP. BANGKA BELITUNG",
"KEP. RIAU","DKI JAKARTA","JAWA BARAT","JAWA TENGAH",
"DI YOGYAKARTA","JAWA TIMUR","BANTEN","BALI","NUSA TENGGARA BARAT",
"NUSA TENGGARA TIMUR","KALIMANTAN BARAT","KALIMANTAN TENGAH",
"KALIMANTAN SELATAN","KALIMANTAN TIMUR","KALIMANTAN UTARA",
"SULAWESI UTARA","SULAWESI TENGAH","SULAWESI SELATAN",
"SULAWESI TENGGARA","GORONTALO","SULAWESI BARAT","MALUKU",
"MALUKU UTARA","PAPUA BARAT","PAPUA"),
Kemiskinan = c(15.43,9.14,6.56,7.04,7.97,12.98,15.30,12.76,4.89,6.13,4.69,
8.43,11.84,12.80,11.46,6.63,4.45,14.23,21.21,7.24,5.26,4.83,
6.64,7.41,7.78,13.06,8.99,11.69,15.59,11.50,17.99,6.97,21.70,26.80),
Cerai = c(4171,12809,5291,6252,3883,6402,3104,11227,2001,0,12098,37503,65755,
5288,61870,10401,0,4855,451,4249,1595,3410,7012,0,1298,1610,12697,
2768,1452,0,225,476,0,1524),
Kota = c(5,8,7,2,2,4,1,2,1,2,5,9,6,1,9,4,1,2,1,2,1,2,3,1,4,1,3,2,1,0,2,2,1,1),
IPM = c(71.99,71.77,72.38,72.71,71.29,70.01,71.40,69.69,71.47,75.59,80.77,
72.09,71.87,79.97,71.71,72.45,75.50,68.25,65.19,67.66,71.05,70.91,
76.24,70.63,72.93,69.55,71.93,71.45,68.68,66.11,69.49,68.49,65.09,60.44)
)
head(data)
## Provinsi Kemiskinan Cerai Kota IPM
## 1 ACEH 15.43 4171 5 71.99
## 2 SUMATERA UTARA 9.14 12809 8 71.77
## 3 SUMATERA BARAT 6.56 5291 7 72.38
## 4 RIAU 7.04 6252 2 72.71
## 5 JAMBI 7.97 3883 2 71.29
## 6 SUMATERA SELATAN 12.98 6402 4 70.01
Karena setiap variabel memiliki satuan berbeda, data perlu distandardisasi agar tidak ada variabel yang mendominasi proses clustering.
data.scaled <- scale(data[, 2:5])
Penjelasan:
scale() mengubah data menjadi bentuk Z-score
Semua variabel menjadi setara secara skala.
Perhitungan jarak antarprovinsi dilakukan menggunakan metode Euclidean.
dist_matrix <- dist(data.scaled, method = "euclidean")
Penjelasan: Euclidean mengukur jarak lurus antar titik dalam ruang multivariat, paling umum dalam cluster hierarki.
Metode penggabungan yang digunakan adalah Ward.D2, karena menghasilkan cluster yang lebih seimbang dengan meminimalkan varians dalam cluster.
hc <- hclust(dist_matrix, method = "ward.D2")
Dendrogram memberikan gambaran visual bagaimana provinsi digabungkan secara bertahap.
plot(hc,
labels = data$Provinsi,
main = "Dendrogram Cluster Hierarki",
xlab = "Provinsi",
ylab = "Jarak",
cex = 0.6)
Misalnya dipilih 3 cluster, dendrogram dipotong menggunakan fungsi cutree().
clusters <- cutree(hc, k = 3)
data$Cluster <- clusters
data
## Provinsi Kemiskinan Cerai Kota IPM Cluster
## 1 ACEH 15.43 4171 5 71.99 1
## 2 SUMATERA UTARA 9.14 12809 8 71.77 1
## 3 SUMATERA BARAT 6.56 5291 7 72.38 1
## 4 RIAU 7.04 6252 2 72.71 1
## 5 JAMBI 7.97 3883 2 71.29 1
## 6 SUMATERA SELATAN 12.98 6402 4 70.01 1
## 7 BENGKULU 15.30 3104 1 71.40 1
## 8 LAMPUNG 12.76 11227 2 69.69 1
## 9 KEP. BANGKA BELITUNG 4.89 2001 1 71.47 1
## 10 KEP. RIAU 6.13 0 2 75.59 1
## 11 DKI JAKARTA 4.69 12098 5 80.77 1
## 12 JAWA BARAT 8.43 37503 9 72.09 2
## 13 JAWA TENGAH 11.84 65755 6 71.87 2
## 14 DI YOGYAKARTA 12.80 5288 1 79.97 1
## 15 JAWA TIMUR 11.46 61870 9 71.71 2
## 16 BANTEN 6.63 10401 4 72.45 1
## 17 BALI 4.45 0 1 75.50 1
## 18 NUSA TENGGARA BARAT 14.23 4855 2 68.25 1
## 19 NUSA TENGGARA TIMUR 21.21 451 1 65.19 3
## 20 KALIMANTAN BARAT 7.24 4249 2 67.66 1
## 21 KALIMANTAN TENGAH 5.26 1595 1 71.05 1
## 22 KALIMANTAN SELATAN 4.83 3410 2 70.91 1
## 23 KALIMANTAN TIMUR 6.64 7012 3 76.24 1
## 24 KALIMANTAN UTARA 7.41 0 1 70.63 1
## 25 SULAWESI UTARA 7.78 1298 4 72.93 1
## 26 SULAWESI TENGAH 13.06 1610 1 69.55 1
## 27 SULAWESI SELATAN 8.99 12697 3 71.93 1
## 28 SULAWESI TENGGARA 11.69 2768 2 71.45 1
## 29 GORONTALO 15.59 1452 1 68.68 1
## 30 SULAWESI BARAT 11.50 0 0 66.11 1
## 31 MALUKU 17.99 225 2 69.49 1
## 32 MALUKU UTARA 6.97 476 2 68.49 1
## 33 PAPUA BARAT 21.70 0 1 65.09 3
## 34 PAPUA 26.80 1524 1 60.44 3
Melihat jumlah provinsi pada tiap cluster.
table(data$Cluster)
##
## 1 2 3
## 28 3 3
plot(hc, labels = data$Provinsi, main = "Dendrogram Hasil Hierarchical Clustering", cex = 0.6)
abline(h = 6, col = "red", lty = 2)
clusters <- cutree(hc, k = 3)
data$Cluster <- clusters
data
## Provinsi Kemiskinan Cerai Kota IPM Cluster
## 1 ACEH 15.43 4171 5 71.99 1
## 2 SUMATERA UTARA 9.14 12809 8 71.77 1
## 3 SUMATERA BARAT 6.56 5291 7 72.38 1
## 4 RIAU 7.04 6252 2 72.71 1
## 5 JAMBI 7.97 3883 2 71.29 1
## 6 SUMATERA SELATAN 12.98 6402 4 70.01 1
## 7 BENGKULU 15.30 3104 1 71.40 1
## 8 LAMPUNG 12.76 11227 2 69.69 1
## 9 KEP. BANGKA BELITUNG 4.89 2001 1 71.47 1
## 10 KEP. RIAU 6.13 0 2 75.59 1
## 11 DKI JAKARTA 4.69 12098 5 80.77 1
## 12 JAWA BARAT 8.43 37503 9 72.09 2
## 13 JAWA TENGAH 11.84 65755 6 71.87 2
## 14 DI YOGYAKARTA 12.80 5288 1 79.97 1
## 15 JAWA TIMUR 11.46 61870 9 71.71 2
## 16 BANTEN 6.63 10401 4 72.45 1
## 17 BALI 4.45 0 1 75.50 1
## 18 NUSA TENGGARA BARAT 14.23 4855 2 68.25 1
## 19 NUSA TENGGARA TIMUR 21.21 451 1 65.19 3
## 20 KALIMANTAN BARAT 7.24 4249 2 67.66 1
## 21 KALIMANTAN TENGAH 5.26 1595 1 71.05 1
## 22 KALIMANTAN SELATAN 4.83 3410 2 70.91 1
## 23 KALIMANTAN TIMUR 6.64 7012 3 76.24 1
## 24 KALIMANTAN UTARA 7.41 0 1 70.63 1
## 25 SULAWESI UTARA 7.78 1298 4 72.93 1
## 26 SULAWESI TENGAH 13.06 1610 1 69.55 1
## 27 SULAWESI SELATAN 8.99 12697 3 71.93 1
## 28 SULAWESI TENGGARA 11.69 2768 2 71.45 1
## 29 GORONTALO 15.59 1452 1 68.68 1
## 30 SULAWESI BARAT 11.50 0 0 66.11 1
## 31 MALUKU 17.99 225 2 69.49 1
## 32 MALUKU UTARA 6.97 476 2 68.49 1
## 33 PAPUA BARAT 21.70 0 1 65.09 3
## 34 PAPUA 26.80 1524 1 60.44 3
Berikut interpretasi berdasarkan karakteristik rata-rata tiap klaster.
aggregate(data[,2:5], by = list(Cluster = data$Cluster), FUN = mean)
## Cluster Kemiskinan Cerai Kota IPM
## 1 1 9.498214 4449.0714 2.535714 71.79857
## 2 2 10.576667 55042.6667 8.000000 71.89000
## 3 3 23.236667 658.3333 1.000000 63.57333
Interpretasi umum:
Klaster 1 → rata-rata kemiskinan rendah, IPM relatif tinggi, jumlah cerai sedang–tinggi, jumlah kota cukup banyak.
Klaster 2 → kemiskinan sedang, IPM sedang, cerai tidak terlalu tinggi.
Klaster 3 → kemiskinan tertinggi, IPM terendah, cerai rendah–sedang, umumnya provinsi di kawasan timur.
Dalam analisis klaster hierarki, tidak terdapat hipotesis statistik formal seperti pada uji parametrik. Namun, terdapat asumsi dasar:
Objek yang mirip harus memiliki jarak yang kecil.
Algoritma Ward meminimasi variasi dalam klaster, sehingga diasumsikan data terstandarisasi (sudah dilakukan).
Karena tidak ada uji signifikan (p-value), analisis berbasis validitas struktural klaster, bukan inferensi.
Metode Ward’s Hierarchical Clustering meminimasi:
\[ \Delta = \sum_{i \in C_1} (x_i - \bar{x}_{C_1})^2 + \sum_{i \in C_2} (x_i - \bar{x}_{C_2})^2 \]
Dimana penggabungan dua klaster dilakukan bila nilai Δ paling kecil.
aggregate(data[,2:5], by = list(Cluster = data$Cluster), FUN = mean)
## Cluster Kemiskinan Cerai Kota IPM
## 1 1 9.498214 4449.0714 2.535714 71.79857
## 2 2 10.576667 55042.6667 8.000000 71.89000
## 3 3 23.236667 658.3333 1.000000 63.57333
Tujuan: memastikan tidak ada variabel yang redundan.
apply(data.scaled, 2, mean)
## Kemiskinan Cerai Kota IPM
## 1.588165e-16 7.734507e-18 -1.147022e-17 5.362910e-16
apply(data.scaled, 2, sd)
## Kemiskinan Cerai Kota IPM
## 1 1 1 1
Output mean ≈ 0 dan sd ≈ 1 menandakan scaling sukses.
Silhouette optional:
library(cluster)
sil <- silhouette(clusters, dist_matrix)
plot(sil, main = "Silhouette Plot")
mean(sil[,3])
## [1] 0.456841
Keputusan nilai silhouette:
0.5 = sangat baik
0.2–0.5 = cukup
< 0.2 = cluster kurang kuat
Provinsi dengan kemiskinan rendah & IPM tinggi (misalnya DKI Jakarta, Bali) cenderung masuk klaster yang sama.
Provinsi di kawasan timur (Papua, NTT, Maluku) membentuk klaster tersendiri karena tingkat kemiskinan tinggi dan IPM rendah.
Klaster tengah berisi provinsi dengan karakteristik moderat.
Dendrogram memperlihatkan struktur hirarkis yang konsisten dengan kondisi sosial ekonomi provinsi di Indonesia.
Penggunaan Ward.D2 menghasilkan klaster yang cukup seimbang dan meminimasi variasi dalam klaster.
Berdasarkan analisis Hierarchical Clustering menggunakan metode Ward.D2 dengan variabel persentase kemiskinan, jumlah perceraian, jumlah kota, dan IPM pada 34 provinsi di Indonesia, diperoleh beberapa poin penting:
Data berhasil membentuk 3 klaster utama yang mencerminkan karakteristik sosial ekonomi provinsi di Indonesia.
Klaster 1 berisi provinsi dengan tingkat kemiskinan rendah dan IPM relatif tinggi. Provinsi dalam klaster ini umumnya memiliki pembangunan sosial yang lebih baik.
Klaster 2 menggambarkan kelompok provinsi dengan indikator sosial ekonomi yang moderat—kemiskinan, jumlah perceraian, dan IPM berada pada rentang menengah.
Klaster 3 berisi provinsi dengan tingkat kemiskinan tinggi dan IPM yang lebih rendah, didominasi wilayah Indonesia bagian timur.
Dendrogram menunjukkan struktur pengelompokan yang stabil, dan uji silhouette memberikan gambaran bahwa pemilihan 3 klaster cukup representatif.
Proses scaling data, pemeriksaan korelasi, dan evaluasi validitas klaster menunjukkan bahwa analisis sudah memenuhi asumsi dasar metode clustering.
Secara keseluruhan, metode klaster hierarkis mampu memberikan pemahaman yang komprehensif mengenai pengelompokan provinsi berdasarkan indikator sosial ekonomi yang digunakan.
Berdasarkan hasil analisis, beberapa rekomendasi yang dapat dipertimbangkan adalah:
Bagi Pemerintah Daerah: Provinsi dalam Klaster 3 yang memiliki tingkat kemiskinan tinggi dan IPM rendah dapat diprioritaskan dalam program peningkatan pelayanan dasar, pendidikan, dan pemberdayaan ekonomi.
Bagi Peneliti Selanjutnya: Disarankan menambahkan variabel sosial ekonomi lain seperti tingkat pengangguran, tingkat pendidikan, atau PDRB per kapita untuk memperkaya hasil pengelompokan.
Untuk Analisis Lanjutan: Penggunaan metode klaster lain (misalnya k-means, model-based clustering, atau DBSCAN) dapat dibandingkan untuk melihat konsistensi klaster dan meningkatkan robustness hasil.
Untuk Validitas yang Lebih Tinggi: Perlu dilakukan bootstrapping cluster stability untuk memeriksa apakah struktur klaster konsisten terhadap variasi sampel.
Badan Pusat Statistik (BPS). (2024). Indikator Kesejahteraan Rakyat. https://www.bps.go.id
Everitt, B., Landau, S., Leese, M., & Stahl, D. (2011). Cluster Analysis (5th ed.). Wiley.
Johnson, R. A., & Wichern, D. W. (2007). Applied Multivariate Statistical Analysis. Prentice Hall.
Kaufman, L., & Rousseeuw, P. J. (2005). Finding Groups in Data: An Introduction to Cluster Analysis. Wiley.
Tan, P.-N., Steinbach, M., & Kumar, V. (2019). Introduction to Data Mining. Pearson.