Pengelompokan Provinsi di Indonesia Berdasarkan Indeks Pembangunan Manusia(IPM) Tahun 2025 dengan Analisis Cluster Hierarki

Yanti Yuliatur Rohmah

2025-12-03

BAB I STUDI KASUS

1.1 Latar Belakang

Pembangunan manusia merupakan salah satu tolok ukur utama dalam menilai kemajuan suatu daerah. Indikator ini tidak hanya berfokus pada pertumbuhan ekonomi, tetapi juga mencerminkan peningkatan kualitas hidup masyarakat melalui aspek kesehatan, pendidikan, serta taraf kesejahteraan. Untuk menggambarkan kondisi kualitas hidup penduduk, umumnya digunakan indikator dasar pembangunan manusia. Umur Harapan Hidup (UHH) menjadi ukuran derajat kesehatan masyarakat, Rata-Rata Lama Sekolah (RLS) mencerminkan capaian pendidikan, sementara Pengeluaran per Kapita (PK) menggambarkan tingkat kesejahteraan ekonomi. Walaupun berbagai upaya pembangunan telah dijalankan, kesenjangan antarwilayah di Indonesia masih cukup terlihat, tercermin dari perbedaan nilai UHH, RLS, dan PK antarprovinsi. Oleh karena itu, diperlukan analisis untuk mengelompokkan wilayah berdasarkan kemiripan karakteristik pembangunan manusia, sehingga perencanaan kebijakan dapat lebih tepat sasaran dan efektif.

1.2 Tujuan

Penelitian ini bertujuan untuk: 1. Memahami dan menerapkan langkah-langkah analisis Hierarchical Clustering (HC) dalam pengelompokan wilayah berdasarkan indikator pembangunan manusia. 2. Mengelompokkan provinsi di Indonesia berdasarkan Umur Harapan Hidup (UHH), Rata-Rata Lama Sekolah (RLS), dan Pengeluaran per Kapita (PK) untuk mengetahui wilayah yang memiliki karakteristik pembangunan manusia yang serupa. 3. Menyajikan hasil visualisasi dendrogram dan karakteristik setiap cluster sebagai dasar rekomendasi kebijakan pembangunan yang lebih tepat sasaran.

1.3 Tinjauan Pustaka

1.3.1 Analisis Klaster

Analisis klaster merupakan teknik analisis multivariat yang digunakan untuk mengelompokkan objek atau individu berdasarkan kemiripan karakteristik yang dimilikinya. Menurut Johnson dan Wichern (2007), analisis klaster bertujuan untuk mengelompokkan objek ke dalam klaster sehingga objek dalam satu klaster memiliki tingkat kemiripan yang tinggi, sedangkan objek antar klaster memiliki perbedaan yang signifikan. Everitt et al. (2011) juga menyatakan bahwa analisis klaster merupakan metode eksploratori yang memungkinkan peneliti menemukan struktur alami dari data tanpa mengetahui jumlah kelompok sebelumnya. Dengan demikian, analisis klaster menjadi teknik penting dalam pengelompokan data untuk tujuan segmentasi, klasifikasi, dan pengambilan keputusan berbasis data.

1.3.2 Metode Hierarki

Metode hierarki adalah pendekatan dalam analisis klaster yang membentuk struktur pengelompokan secara bertahap dan digambarkan melalui dendrogram. Menurut Hair et al. (2010), metode hierarki diawali dengan memperhitungkan jarak antar objek untuk kemudian dilakukan penggabungan atau pemisahan klaster secara berjenjang hingga terbentuk jumlah klaster yang optimal. Salah satu metode yang paling sering digunakan adalah metode agglomerative, yaitu penggabungan objek dimulai dari klaster dengan satu anggota hingga semua objek berada dalam satu klaster. Teknik pengelompokan hierarki dinilai efektif untuk dataset berukuran kecil hingga menengah dan untuk tujuan eksplorasi.

1.3.3 Metode Non-Hierarki

Metode non-hierarki merupakan pendekatan analisis klaster yang membutuhkan penentuan jumlah klaster di awal, kemudian objek diperbarui secara iteratif hingga tercapai peminimalan jarak antar objek dalam klaster. Menurut Kaufman dan Rousseeuw (2005), metode non-hierarki seperti K-Means merupakan metode berbasis partisi yang mengelompokkan objek berdasarkan nilai centroid yang diperbarui secara berulang. Metode ini lebih efisien dan mampu menangani data berukuran besar, meskipun hasilnya sangat bergantung pada penentuan jumlah klaster awal dan nilai awal pusat klaster. Hair et al. (2010) menegaskan bahwa pemilihan metode non-hierarki tepat digunakan ketika jumlah data besar serta struktur kelompok sudah diperkirakan sebelumnya.

1.4 Data

Data yang digunakan dalam penelitian ini merupakan data sekunder yang diperoleh dari publikasi resmi Badan Pusat Statistik (BPS) tahun 2025. Data tersebut mencakup tiga indikator utama pembangunan manusia pada tingkat provinsi di Indonesia, yaitu Umur Harapan Hidup (UHH) dalam tahun sebagai indikator kesehatan, Rata-Rata Lama Sekolah (RLS) dalam tahun sebagai indikator capaian pendidikan, serta Pengeluaran per Kapita (PK) dalam ribu/rupiah/tahun sebagai indikator kesejahteraan ekonomi.

BAB II SOURCE CODE

2.1 Library

library(readxl)
library(psych)
library(corrplot)
library(clValid)
library(factoextra)
library(dendextend)
library(usdm)
  • library(readxl)digunakan untuk membaca atau mengimpor data dari file Excel (.xls atau .xlsx) ke dalam R.
  • library(psych)menyediakan berbagai fungsi statistik, khususnya untuk analisis psikometri seperti analisis deskriptif, reliabilitas, dan faktor.
  • library(corrplot) digunakan untuk membuat visualisasi matriks korelasi dalam bentuk grafik yang informatif dan menarik.
  • library(clValid) berfungsi untuk mengevaluasi kevalidan hasil clustering dengan berbagai indeks validasi internal maupun stabilitas.
  • library(factoextra) digunakan untuk mengekstrak dan memvisualisasikan hasil analisis multivariat, seperti PCA dan clustering (K-Means & Hierarki).
  • library(dendextend) digunakan untuk memodifikasi, mengatur tampilan, dan mempercantik dendrogram hasil analisis klaster hierarki.
  • library(usdm) digunakan untuk mendeteksi multikolinearitas antar variabel prediktor melalui perhitungan VIF.

2.2 Syntax

2.2.1 Input Data

data <- read_excel("~/Dataset IPM 2025.xlsx")
head(data)
## # A tibble: 6 × 5
##      No Provinsi           RLS    PK   UHH
##   <dbl> <chr>            <dbl> <dbl> <dbl>
## 1     1 Aceh              9.95 11191  73.5
## 2     2 Sumatera Utara   10.1  11898  74.2
## 3     3 Sumatera Barat    9.77 12041  74.7
## 4     4 Riau              9.55 12233  74.7
## 5     5 Jambi             8.95 12018  74.4
## 6     6 Sumatera Selatan  8.91 12416  74.6
  • library(readxl)digunakan untuk membaca atau mengimpor data dari file Excel (.xls atau .xlsx) ke dalam R.
  • head(data)digunakan untuk menampilkan beberapa baris pertama dari suatu dataset (secara default 6 baris awal).

2.2.2 Statistika Deskriptif

summary(data)
  • summary(data)digunakan untuk memberikan ringkasan statistik deskriptif dari dataset.

2.2.3 Uji Asumsi

2.2.3.1 Uji Sampel Representatif

kmo_result <- KMO(data[, c("RLS", "PK", "UHH")])

Melakukan Uji KMO (Kaiser-Meyer-Olkin) yang bertujuan mengetahui kecukupan sampel dan kelayakan data untuk dilakukan analisis lebih lanjut seperti clustering. Jika nilai KMO > 0.5, data dinilai cukup layak dan hubungan antar variabel saling mendukung untuk dianalisis. Output kmo_result menampilkan nilai overall MSA dan MSA tiap variabel.

2.2.3.2 Uji Non-Multikoliniearitas

data <- as.data.frame(data)
data$RLS <- as.numeric(gsub(",", ".", data$RLS))
data$PK  <- as.numeric(gsub(",", ".", data$PK))
data$UHH <- as.numeric(gsub(",", ".", data$UHH))
vif_result<-vifcor(data_indep <- data[, c("RLS", "PK", "UHH")])

Menguji multikolinieritas antar variabel menggunakan nilai VIF (Variance Inflation Factor). Multikolinieritas terjadi jika antar variabel independen saling berkorelasi tinggi sehingga dapat mempengaruhi hasil analisis. Jika nilai VIF < 10, berarti tidak ada masalah multikolinieritas, dan variabel dapat digunakan bersama dalam clustering.

2.2.4 Standarisasi

data_indep <- data[, c("RLS", "PK", "UHH")] 
datastand <- scale(data_indep)

Melakukan standarisasi data menggunakan metode Z-Score, sehingga semua variabel menjadi memiliki skala yang sama dengan mean = 0 dan standar deviasi = 1. Proses ini penting karena variabel PK memiliki satuan rupiah dengan angka besar yang dapat mendominasi hasil clustering. Dengan standarisasi, kontribusi seluruh variabel menjadi seimbang.

2.2.5 Koefisien Korelasi Cophenetic

dist_data <- dist(data_indep)
methods <- c("single", "complete", "average", "centroid", "ward.D2")
KorCop <- sapply(methods, function(m){
  hc <- hclust(dist_data, method = m)
  cor(dist_data, cophenetic(hc))
})

Menghitung Koefisien Korelasi Cophenetic pada berbagai metode linkage (single, complete, average, centroid, ward.D2). Nilai korelasi ini menunjukkan seberapa baik dendrogram dapat menggambarkan jarak asli antar objek. Metode dengan nilai korelasi tertinggi akan dipilih sebagai metode terbaik untuk proses clustering.

2.2.6 Penentuan Jumlah Cluster

data_indep <- data[, c("RLS", "PK", "UHH")]
validation <- clValid(data_indep, 2:5,
                      clMethods = "hierarchical",
                      validation = c("internal"))
summary(validation)

Menentukan jumlah cluster optimal menggunakan metode validasi internal seperti Dunn Index, Silhouette Index, dan Connectivity. Hasil menunjukkan cluster yang paling stabil dan terbaik berdasarkan kombinasi skor validitas. Hasil ini membantu menentukan keputusan tepat jumlah cluster yang digunakan.

2.2.7 Dendogram

data_indep <- data[, c("RLS", "PK", "UHH")]
dist_data <- dist(data_indep, method = "euclidean")
hc_avg <- hclust(dist_data, method = "average")
dend <- as.dendrogram(hc_avg)
dend_colored <- color_branches(dend, k = 2,
                               col = c("#FF8A80", "#009688")) 
plot(
  dend_colored,
  main = "Dendrogram Clustering IPM\nMetode Average Linkage",
  xlab = "Provinsi",
  ylab = "Jarak (Height)",
  lwd = 1.4
)
rect.dendrogram(dend_colored, k = 2,
                border = c("#FF8A80", "#009688"))

Keseluruhan syntax tersebut digunakan untuk membentuk dan memvisualisasikan hasil analisis clustering hierarki dengan metode Average Linkage. Prosesnya dimulai dengan memilih variabel indikator pembangunan manusia (RLS, PK, dan UHH), kemudian menghitung jarak antar provinsi menggunakan jarak Euclidean sebagai dasar pembentukan cluster. Setelah itu, dilakukan pengelompokan objek menggunakan fungsi hclust, yang kemudian diubah menjadi bentuk dendrogram agar mudah dibaca. Dendrogram diberi warna berdasarkan jumlah cluster yang terbentuk (k = 2) dan ditampilkan dengan plot yang dilengkapi kotak pembatas untuk memperjelas kelompok cluster yang terbentuk. Dengan demikian, sintaks ini menghasilkan visualisasi struktur pengelompokan provinsi berdasarkan kemiripan karakteristik indikator pembangunan manusia.

2.2.8 Karakteristik Masing-masing Cluster

idclus <- cutree(hc_avg, k = 2)
idclus
aggregate(data_indep, list(Cluster = idclus), mean)

Syntax ini digunakan untuk mengidentifikasikan karateristik setiap klaster yang terbentuk serta membandingkan setiap klasternya.

BAB III HASIL DAN PEMBAHASAN

3.1 Uji Asumsi Sampel Representatif

kmo_result <- KMO(data[, c("RLS", "PK", "UHH")])
kmo_result
## Kaiser-Meyer-Olkin factor adequacy
## Call: KMO(r = data[, c("RLS", "PK", "UHH")])
## Overall MSA =  0.68
## MSA for each item = 
##  RLS   PK  UHH 
## 0.84 0.62 0.66

Uji KMO masing-masing variabel bernilai >0,5, sehingga sampel telah cukup dan dapat dilakukan analisis cluster.

3.2 Uji Asumsi Non-Multikolinearitas

data <- as.data.frame(data)
data$RLS <- as.numeric(gsub(",", ".", data$RLS))
data$PK  <- as.numeric(gsub(",", ".", data$PK))
data$UHH <- as.numeric(gsub(",", ".", data$UHH))

vif_result<-vifcor(data_indep <- data[, c("RLS", "PK", "UHH")])
vif_result
## No variable from the 3 input variables has collinearity problem. 
## 
## The linear correlation coefficients ranges between: 
## min correlation ( UHH ~ RLS ):  0.5902837 
## max correlation ( UHH ~ PK ):  0.8335712 
## 
## ---------- VIFs of the remained variables -------- 
##   Variables      VIF
## 1       RLS 1.792440
## 2        PK 3.827156
## 3       UHH 3.306560

Output menunjukkan bahwa seluruh variabel memiliki nilai VIF kurang dari 10(VIF<10) maka dapat disimpulkan tidak terdapat multikolinearitas antarvariabel.

3.3 Standarisasi

data_indep <- data[, c("RLS", "PK", "UHH")] 
datastand <- scale(data_indep)
head(datastand)
##              RLS          PK       UHH
## [1,]  0.74240176 -0.27981037 0.1098864
## [2,]  0.84724638  0.05764016 0.4124104
## [3,]  0.59723229  0.12589394 0.6254555
## [4,]  0.41980294  0.21753538 0.6467600
## [5,] -0.06409529  0.11491606 0.4976285
## [6,] -0.09635517  0.30488114 0.5785856

Hasil standarisasi menunjukkan data yang memiliki nilai positif menunjukkan data tersebut bernilai lebih besar dari rata-rata. Data dengan nilai negatif menunjukkan data tersebut bernilai lebih kecil dari rata-rata dan 0 menunjukkan data tersebut persis di rata-rata.

3.4 Koefisien Korelasi Cophenetic

dist_data <- dist(data_indep)
methods <- c("single", "complete", "average", "centroid", "ward.D2")
KorCop <- sapply(methods, function(m){
  hc <- hclust(dist_data, method = m)
  cor(dist_data, cophenetic(hc))
})
KorCop
##    single  complete   average  centroid   ward.D2 
## 0.7165546 0.7319975 0.7805763 0.7723334 0.7060199

Nilai korelasi yang paling mendekati 1 ialah metode average linkage, sehingga berdasarkan output, metode terbaik yang terpilih adalah metode average linkage.

3.5 Penentuan Jumlah Cluster

data_indep <- data[, c("RLS", "PK", "UHH")]
validation <- clValid(data_indep, 2:5,
                      clMethods = "hierarchical",
                      validation = c("internal"))
summary(validation)
## 
## Clustering Methods:
##  hierarchical 
## 
## Cluster sizes:
##  2 3 4 5 
## 
## Validation Measures:
##                                  2       3       4       5
##                                                           
## hierarchical Connectivity   3.0718  7.3016 13.2504 17.9052
##              Dunn           0.2772  0.1531  0.2237  0.2362
##              Silhouette     0.5778  0.4685  0.5527  0.5094
## 
## Optimal Scores:
## 
##              Score  Method       Clusters
## Connectivity 3.0718 hierarchical 2       
## Dunn         0.2772 hierarchical 2       
## Silhouette   0.5778 hierarchical 2

Berdasarkan hasil indeks validitas clustering menggunakan metode average linkage, metode hierarchical menunjukkan bahwa jumlah cluster optimal adalah 2, ditinjau dari nilai indeks Dunn sebesar 0.2772 dan Silhouette sebesar 0.5778, yang keduanya di bawah 1 dan mengindikasikan struktur cluster cukup baik dalam hal kekompakan dan keterpisahan. Namun, nilai Connectivity sebesar 3.0718 yang berada di atas 1 menunjukkan kualitas pemisahan cluster masih kurang optimal. Dengan demikian, meskipun masih terdapat kelemahan dari segi konektivitas antar objek, konfigurasi 2 cluster tetap dianggap sebagai pilihan terbaik untuk mengelompokkan provinsi berdasarkan kemiripan karakteristik variabel RLS, PK, dan UHH.

3.6 Dendogram

data_indep <- data[, c("RLS", "PK", "UHH")]
dist_data <- dist(data_indep, method = "euclidean")
hc_avg <- hclust(dist_data, method = "average")
dend <- as.dendrogram(hc_avg)
dend_colored <- color_branches(dend, k = 2,
                               col = c("#FF8A80", "#009688")) 
plot(
  dend_colored,
  main = "Dendrogram Clustering IPM\nMetode Average Linkage",
  xlab = "Provinsi",
  ylab = "Jarak (Height)",
  lwd = 1.4
)
rect.dendrogram(dend_colored, k = 2,
                border = c("#FF8A80", "#009688"))

Berdasarkan output tersebut didapatkan pengelompokan sebagai berikut: - Cluster 1 : Dendogram berwarna hijau tosca terdiri dari 37 Provinsi di Indonesia, yaitu Aceh, Sumatera Utara, Sumatera Barat, Riau, Jambi, Sumatera Selatan, Bengkulu, Lampung, Kepulauan Bangka, Belitung, Kepulauan Riau, DKI Jakarta, Jawa Barat, Jawa Tengah, DI Yogyakarta, Jawa Timur, Banten, Bali, Nusa Tenggara Barat, Nusa Tenggara Timur, Kalimantan Barat, Kalimantan Tengah, Kalimantan Selatan, Kalimantan Timur, Kalimantan Utara, Sulawesi Utara, Sulawesi Tengah, Sulawesi Selatan, Sulawesi Tenggara, Gorontalo, Sulawesi Barat, Maluku, Maluku Utara, Papua Barat, Papua Barat Daya, Papua Papua Selatan, dan Papua Tengah. - Cluster 2 : Dendogram berwarna merah terdiri dari Provinsi Papua Pegunungan

3.7 Karakteristik Masing-masing Cluster

idclus <- cutree(hc_avg, k = 2)
aggregate(data_indep, list(Cluster = idclus), mean)
##   Cluster      RLS       PK      UHH
## 1       1 9.157297 11937.14 73.37541
## 2       2 4.300000  5861.00 67.55000

Berdasarkan output, pada cluster 1 rata-rata lama sekolah (X1), pengeluaran perkapita(X2), dan umur harapan hidup(X3) lebih tinggi daripada cluster 2. Dengan demikian, dapat disimpulkan bahwa cluster 1 merupakan kelompok wilayah yang lebih maju dari sisi pendidikan, tingkat ekonomi, dan kesehatan.

BAB IV PENUTUP

4.1 Kesimpulan

Hasil analisis cluster menunjukkan bahwa terdapat dua kelompok provinsi berdasarkan kesamaan karakteristik pembangunan manusia yang diukur dari Rata-rata Lama Sekolah (RLS), Pengeluaran Per Kapita (PK), dan Umur Harapan Hidup (UHH). Cluster 1 memiliki rata-rata RLS 9,15 tahun, pengeluaran per kapita 11.937, dan UHH 73,38 tahun, yang menunjukkan bahwa provinsi pada klaster ini memiliki tingkat pendidikan, kesejahteraan ekonomi, dan derajat kesehatan lebih tinggi dibandingkan dengan cluster lainnya. Sementara itu, cluster 2 memiliki rata-rata RLS 4,30 tahun, pengeluaran per kapita 5.861, dan UHH 67,55 tahun, sehingga mengindikasikan bahwa provinsi dalam kelompok ini berada pada kondisi pembangunan manusia lebih rendah dan membutuhkan perhatian khusus untuk peningkatan kualitas hidup masyarakat. Dengan demikian, dapat disimpulkan bahwa ketimpangan pembangunan antarprovinsi di Indonesia masih cukup besar dan perlu penanganan berbeda sesuai kondisi tiap cluster.

4.2 Saran

Pemerintah pusat dan daerah perlu memprioritaskan program intervensi pada provinsi yang termasuk dalam cluster 2, terutama melalui peningkatan akses pendidikan (program wajib belajar, beasiswa, dan pengembangan fasilitas sekolah), peningkatan layanan kesehatan masyarakat, serta penguatan sektor ekonomi produktif masyarakat melalui pemberdayaan UMKM dan peningkatan kesempatan kerja. Sementara itu, provinsi pada cluster 1 diharapkan dapat terus meningkatkan capaian pembangunan serta menjadi role model bagi daerah lain melalui kerjasama antarwilayah, transfer pengetahuan, dan dukungan pembangunan regional. Pemerintah juga perlu melakukan monitoring dan evaluasi berkala untuk memastikan efektivitas kebijakan serta mengurangi kesenjangan pembangunan antarprovinsi.

Daftar Pustaka

BPS. (2023). Indikator pendidikan dan kesehatan. Badan Pusat Statistik.

Everitt, B., Landau, S., Leese, M., & Stahl, D. (2011). Cluster Analysis (5th ed.). Wiley.

Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2010). Multivariate Data Analysis (7th ed.). Pearson.

Johnson, R. A., & Wichern, D. W. (2007). Applied Multivariate Statistical Analysis (6th ed.). Pearson Education.

Kaufman, L., & Rousseeuw, P. J. (2005). Finding Groups in Data: An Introduction to Cluster Analysis. Wiley-Interscience.

Todaro, M. P., & Smith, S. C. (2020). Economic development. Pearson.

Walpole, R. E., Myers, R. H., Myers, S. L., & Ye, K. (2012). Probability and statistics for engineers and scientists. Pearson.