1 Pendahuluan

1.1 Latar Belakang

Indonesia adalah negara yang terdiri dari banyak pulau dan memiliki perbedaan dalam hal kondisi sosial, ekonomi, serta kependudukan di setiap daerahnya. Setiap provinsi memiliki ciri khas dalam pembangunan yang berbeda, yang dapat dilihat dari berbagai indikator seperti persentase penduduk yang tidak mampu, jumlah kasus perceraian, jumlah kota, serta Indeks Pembangunan Manusia (IPM). Perbedaan antarprovinsi ini tidak hanya menunjukkan tingkat kesejahteraan masyarakat, tetapi juga membantu memahami tingkat kemajuan pembangunan serta adanya ketimpangan daerah.

Perbedaan ini penting untuk dianalisis secara menyeluruh. Dengan menggunakan analisis data multivariat, para peneliti dapat melihat pola kesamaan antar provinsi secara bersamaan berdasarkan berbagai variabel. Salah satu metode yang digunakan adalah Analisis Cluster, yaitu teknik statistik yang mengelompokkan objek-objek berdasarkan kesamaan karakteristiknya. Metode ini memungkinkan provinsi-provinsi yang memiliki ciri serupa dikumpulkan ke dalam satu kelompok, sehingga pola pembangunan daerah bisa lebih mudah dipahami.

Dalam konteks ini, metode Cluster Hierarki dipilih karena mampu menampilkan cara pengelompokan secara bertahap melalui grafik dendogram. Dengan demikian, hubungan kesamaan antar provinsi dapat dilihat secara visual dan mudah dipahami. Metode ini juga membantu menunjukkan secara jelas bagaimana provinsi-provinsi di Indonesia dapat dibagi berdasarkan kondisi sosial ekonominya.

1.2 Sumber dan Cuplikan Data

Data yang digunakan dalam penelitian ini merupakan data sosial ekonomi tingkat provinsi di Indonesia, yang meliputi:

  • Persentase Penduduk Miskin (%)

  • Jumlah Perceraian

  • Jumlah Kota

  • Indeks Pembangunan Manusia (IPM)

Data memuat 34 provinsi sebagai unit analisis.

1.3 Latar Belakang Metode

Analisis Cluster adalah cara untuk mengelompokkan objek berdasarkan kecocokan karakteristiknya. Cluster Hierarki mengatur objek dalam bentuk struktur bertingkat dengan cara menggabungkan (agglomerative) atau memisahkan (divisive). Dalam penelitian ini, metode yang digunakan adalah agglomerative, yaitu setiap provinsi awalnya terpisah sebagai satu kelompok, lalu digabungkan secara bertahap berdasarkan jarak yang paling dekat.

Cara ini tidak membutuhkan penentuan jumlah kelompok dari awal, sehingga cocok digunakan ketika pola atau jumlah kelompok dalam data belum jelas. Hasil pengelompokan bisa dilihat melalui dendrogram, yang memudahkan dalam memahami dan menganalisis hubungan antar provinsi.

1.4 Sekilas Tinjauan Pustaka

Analisis Cluster adalah cara untuk mengelompokkan objek berdasarkan kecocokan sifat atau karakteristiknya. Metode Cluster Hierarki mengatur objek dalam bentuk struktur bertingkat dengan menggunakan proses penggabungan (agglomerative) atau pemisahan (divisive). Dalam penelitian ini, metode yang digunakan adalah agglomerative, yaitu setiap provinsi awalnya terpisah sebagai satu kelompok, lalu digabungkan secara bertahap sesuai dengan jarak terdekat antar provinsi.

Metode ini tidak membutuhkan penentuan jumlah kelompok sejak awal, sehingga sangat cocok digunakan ketika pola atau jumlah kelompok dalam data tidak diketahui sebelumnya. Hasil pengelompokan dapat dilihat secara visual melalui dendrogram, yang memudahkan dalam memahami dan memaknai hubungan antar provinsi.

1.5 Tujuan Analisis

Tujuan dari analisis ini adalah:

  1. Mengelompokkan provinsi di Indonesia berdasarkan indikator sosial ekonomi menggunakan metode cluster hierarki.
  2. Mengidentifikasi pola kemiripan antar provinsi berdasarkan empat variabel utama.
  3. Menyajikan visualisasi dendrogram untuk memahami struktur pengelompokan.
  4. Memberikan interpretasi karakteristik dari setiap cluster yang terbentuk.

2. Source Code dan Penjelasannya

2.1 Library yang Digunakan

Analisis ini menggunakan beberapa library dalam R. Masing-masing memiliki fungsi sebagai berikut:

  • dplyr : Untuk praproses dan manipulasi data, seperti seleksi variabel, transformasi, serta pembersihan dataset sebelum dianalisis.
  • ggplot2 : Untuk menghasilkan visualisasi eksploratif dan grafik pendukung yang membantu mengidentifikasi pola pada data multivariat serta memvisualisasikan hasil clustering.
  • cluster : Menyediakan metode-metode utama dalam analisis pengelompokan, termasuk hierarchical clustering, k-medoids, serta ukuran evaluasi kualitas cluster seperti silhouette width.
  • factoextra : Untuk mengekstraksi dan memvisualisasikan hasil analisis cluster, seperti dendrogram, plot cluster, dan grafik evaluasi sehingga interpretasi hasil lebih jelas dan informatif.
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.5.1
library(cluster)
library(factoextra)
## Warning: package 'factoextra' was built under R version 4.5.1
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa

2.2 Input Data

Data terdiri dari 34 provinsi dengan empat variabel numerik: persentase penduduk miskin, jumlah perceraian, jumlah kota, dan IPM. Data dimasukkan secara manual seperti berikut:

data <- data.frame(
  Provinsi = c("ACEH","SUMATERA UTARA","SUMATERA BARAT","RIAU","JAMBI",
               "SUMATERA SELATAN","BENGKULU","LAMPUNG","KEP. BANGKA BELITUNG",
               "KEP. RIAU","DKI JAKARTA","JAWA BARAT","JAWA TENGAH",
               "DI YOGYAKARTA","JAWA TIMUR","BANTEN","BALI","NUSA TENGGARA BARAT",
               "NUSA TENGGARA TIMUR","KALIMANTAN BARAT","KALIMANTAN TENGAH",
               "KALIMANTAN SELATAN","KALIMANTAN TIMUR","KALIMANTAN UTARA",
               "SULAWESI UTARA","SULAWESI TENGAH","SULAWESI SELATAN",
               "SULAWESI TENGGARA","GORONTALO","SULAWESI BARAT","MALUKU",
               "MALUKU UTARA","PAPUA BARAT","PAPUA"),
  Kemiskinan = c(15.43,9.14,6.56,7.04,7.97,12.98,15.30,12.76,4.89,6.13,4.69,
                 8.43,11.84,12.80,11.46,6.63,4.45,14.23,21.21,7.24,5.26,4.83,
                 6.64,7.41,7.78,13.06,8.99,11.69,15.59,11.50,17.99,6.97,21.70,26.80),
  Cerai = c(4171,12809,5291,6252,3883,6402,3104,11227,2001,0,12098,37503,65755,
            5288,61870,10401,0,4855,451,4249,1595,3410,7012,0,1298,1610,12697,
            2768,1452,0,225,476,0,1524),
  Kota = c(5,8,7,2,2,4,1,2,1,2,5,9,6,1,9,4,1,2,1,2,1,2,3,1,4,1,3,2,1,0,2,2,1,1),
  IPM = c(71.99,71.77,72.38,72.71,71.29,70.01,71.40,69.69,71.47,75.59,80.77,
          72.09,71.87,79.97,71.71,72.45,75.50,68.25,65.19,67.66,71.05,70.91,
          76.24,70.63,72.93,69.55,71.93,71.45,68.68,66.11,69.49,68.49,65.09,60.44)
)

head(data)
##           Provinsi Kemiskinan Cerai Kota   IPM
## 1             ACEH      15.43  4171    5 71.99
## 2   SUMATERA UTARA       9.14 12809    8 71.77
## 3   SUMATERA BARAT       6.56  5291    7 72.38
## 4             RIAU       7.04  6252    2 72.71
## 5            JAMBI       7.97  3883    2 71.29
## 6 SUMATERA SELATAN      12.98  6402    4 70.01

2.3 Standardisasi Variabel

Karena setiap variabel memiliki satuan berbeda, data perlu distandardisasi agar tidak ada variabel yang mendominasi proses clustering.

data.scaled <- scale(data[, 2:5])

Penjelasan:

  • scale() mengubah data menjadi bentuk Z-score

  • Semua variabel menjadi setara secara skala.

2.4 Menghitung Matriks Jarak

Perhitungan jarak antarprovinsi dilakukan menggunakan metode Euclidean.

dist_matrix <- dist(data.scaled, method = "euclidean")

Penjelasan: Euclidean mengukur jarak lurus antar titik dalam ruang multivariat, paling umum dalam cluster hierarki.

2.5 Pembangunan Model Cluster Hierarki

Metode penggabungan yang digunakan adalah Ward.D2, karena menghasilkan cluster yang lebih seimbang dengan meminimalkan varians dalam cluster.

hc <- hclust(dist_matrix, method = "ward.D2")

2.6 Visualisasi Dendrogram

Dendrogram memberikan gambaran visual bagaimana provinsi digabungkan secara bertahap.

plot(hc, 
     labels = data$Provinsi, 
     main = "Dendrogram Cluster Hierarki", 
     xlab = "Provinsi", 
     ylab = "Jarak", 
     cex = 0.6)

2.7 Penentuan Jumlah Cluster

Misalnya dipilih 3 cluster, dendrogram dipotong menggunakan fungsi cutree().

clusters <- cutree(hc, k = 3)
data$Cluster <- clusters
data
##                Provinsi Kemiskinan Cerai Kota   IPM Cluster
## 1                  ACEH      15.43  4171    5 71.99       1
## 2        SUMATERA UTARA       9.14 12809    8 71.77       1
## 3        SUMATERA BARAT       6.56  5291    7 72.38       1
## 4                  RIAU       7.04  6252    2 72.71       1
## 5                 JAMBI       7.97  3883    2 71.29       1
## 6      SUMATERA SELATAN      12.98  6402    4 70.01       1
## 7              BENGKULU      15.30  3104    1 71.40       1
## 8               LAMPUNG      12.76 11227    2 69.69       1
## 9  KEP. BANGKA BELITUNG       4.89  2001    1 71.47       1
## 10            KEP. RIAU       6.13     0    2 75.59       1
## 11          DKI JAKARTA       4.69 12098    5 80.77       1
## 12           JAWA BARAT       8.43 37503    9 72.09       2
## 13          JAWA TENGAH      11.84 65755    6 71.87       2
## 14        DI YOGYAKARTA      12.80  5288    1 79.97       1
## 15           JAWA TIMUR      11.46 61870    9 71.71       2
## 16               BANTEN       6.63 10401    4 72.45       1
## 17                 BALI       4.45     0    1 75.50       1
## 18  NUSA TENGGARA BARAT      14.23  4855    2 68.25       1
## 19  NUSA TENGGARA TIMUR      21.21   451    1 65.19       3
## 20     KALIMANTAN BARAT       7.24  4249    2 67.66       1
## 21    KALIMANTAN TENGAH       5.26  1595    1 71.05       1
## 22   KALIMANTAN SELATAN       4.83  3410    2 70.91       1
## 23     KALIMANTAN TIMUR       6.64  7012    3 76.24       1
## 24     KALIMANTAN UTARA       7.41     0    1 70.63       1
## 25       SULAWESI UTARA       7.78  1298    4 72.93       1
## 26      SULAWESI TENGAH      13.06  1610    1 69.55       1
## 27     SULAWESI SELATAN       8.99 12697    3 71.93       1
## 28    SULAWESI TENGGARA      11.69  2768    2 71.45       1
## 29            GORONTALO      15.59  1452    1 68.68       1
## 30       SULAWESI BARAT      11.50     0    0 66.11       1
## 31               MALUKU      17.99   225    2 69.49       1
## 32         MALUKU UTARA       6.97   476    2 68.49       1
## 33          PAPUA BARAT      21.70     0    1 65.09       3
## 34                PAPUA      26.80  1524    1 60.44       3

2.8 Ringkasan Cluster

Melihat jumlah provinsi pada tiap cluster.

table(data$Cluster)
## 
##  1  2  3 
## 28  3  3

3. Hasil dan Pembahasan

3.1 Hasil Analisis Klaster

  1. Dendrogram
plot(hc, labels = data$Provinsi, main = "Dendrogram Hasil Hierarchical Clustering", cex = 0.6)
abline(h = 6, col = "red", lty = 2)

  1. Pembentukan 3 Klaster
clusters <- cutree(hc, k = 3)
data$Cluster <- clusters
data
##                Provinsi Kemiskinan Cerai Kota   IPM Cluster
## 1                  ACEH      15.43  4171    5 71.99       1
## 2        SUMATERA UTARA       9.14 12809    8 71.77       1
## 3        SUMATERA BARAT       6.56  5291    7 72.38       1
## 4                  RIAU       7.04  6252    2 72.71       1
## 5                 JAMBI       7.97  3883    2 71.29       1
## 6      SUMATERA SELATAN      12.98  6402    4 70.01       1
## 7              BENGKULU      15.30  3104    1 71.40       1
## 8               LAMPUNG      12.76 11227    2 69.69       1
## 9  KEP. BANGKA BELITUNG       4.89  2001    1 71.47       1
## 10            KEP. RIAU       6.13     0    2 75.59       1
## 11          DKI JAKARTA       4.69 12098    5 80.77       1
## 12           JAWA BARAT       8.43 37503    9 72.09       2
## 13          JAWA TENGAH      11.84 65755    6 71.87       2
## 14        DI YOGYAKARTA      12.80  5288    1 79.97       1
## 15           JAWA TIMUR      11.46 61870    9 71.71       2
## 16               BANTEN       6.63 10401    4 72.45       1
## 17                 BALI       4.45     0    1 75.50       1
## 18  NUSA TENGGARA BARAT      14.23  4855    2 68.25       1
## 19  NUSA TENGGARA TIMUR      21.21   451    1 65.19       3
## 20     KALIMANTAN BARAT       7.24  4249    2 67.66       1
## 21    KALIMANTAN TENGAH       5.26  1595    1 71.05       1
## 22   KALIMANTAN SELATAN       4.83  3410    2 70.91       1
## 23     KALIMANTAN TIMUR       6.64  7012    3 76.24       1
## 24     KALIMANTAN UTARA       7.41     0    1 70.63       1
## 25       SULAWESI UTARA       7.78  1298    4 72.93       1
## 26      SULAWESI TENGAH      13.06  1610    1 69.55       1
## 27     SULAWESI SELATAN       8.99 12697    3 71.93       1
## 28    SULAWESI TENGGARA      11.69  2768    2 71.45       1
## 29            GORONTALO      15.59  1452    1 68.68       1
## 30       SULAWESI BARAT      11.50     0    0 66.11       1
## 31               MALUKU      17.99   225    2 69.49       1
## 32         MALUKU UTARA       6.97   476    2 68.49       1
## 33          PAPUA BARAT      21.70     0    1 65.09       3
## 34                PAPUA      26.80  1524    1 60.44       3

3.2 Interpretasi Klaster

Berikut interpretasi berdasarkan karakteristik rata-rata tiap klaster.

aggregate(data[,2:5], by = list(Cluster = data$Cluster), FUN = mean)
##   Cluster Kemiskinan      Cerai     Kota      IPM
## 1       1   9.498214  4449.0714 2.535714 71.79857
## 2       2  10.576667 55042.6667 8.000000 71.89000
## 3       3  23.236667   658.3333 1.000000 63.57333

Interpretasi umum:

  • Klaster 1 → rata-rata kemiskinan rendah, IPM relatif tinggi, jumlah cerai sedang–tinggi, jumlah kota cukup banyak.

  • Klaster 2 → kemiskinan sedang, IPM sedang, cerai tidak terlalu tinggi.

  • Klaster 3 → kemiskinan tertinggi, IPM terendah, cerai rendah–sedang, umumnya provinsi di kawasan timur.

3.3 Hipotesis dan Pengujian Hipotesis

Dalam analisis klaster hierarki, tidak terdapat hipotesis statistik formal seperti pada uji parametrik. Namun, terdapat asumsi dasar:

  • Objek yang mirip harus memiliki jarak yang kecil.

  • Algoritma Ward meminimasi variasi dalam klaster, sehingga diasumsikan data terstandarisasi (sudah dilakukan).

Karena tidak ada uji signifikan (p-value), analisis berbasis validitas struktural klaster, bukan inferensi.

3.4 Model atau Persamaan (Jika Ada)

Metode Ward’s Hierarchical Clustering meminimasi:

\[ \Delta = \sum_{i \in C_1} (x_i - \bar{x}_{C_1})^2 + \sum_{i \in C_2} (x_i - \bar{x}_{C_2})^2 \]

Dimana penggabungan dua klaster dilakukan bila nilai Δ paling kecil.

3.5 Pengujian Asumsi

  1. Multikollinearitas / Korelasi antar variabel
aggregate(data[,2:5], by = list(Cluster = data$Cluster), FUN = mean)
##   Cluster Kemiskinan      Cerai     Kota      IPM
## 1       1   9.498214  4449.0714 2.535714 71.79857
## 2       2  10.576667 55042.6667 8.000000 71.89000
## 3       3  23.236667   658.3333 1.000000 63.57333

Tujuan: memastikan tidak ada variabel yang redundan.

  1. Skala Data
apply(data.scaled, 2, mean)
##    Kemiskinan         Cerai          Kota           IPM 
##  1.588165e-16  7.734507e-18 -1.147022e-17  5.362910e-16
apply(data.scaled, 2, sd)
## Kemiskinan      Cerai       Kota        IPM 
##          1          1          1          1

Output mean ≈ 0 dan sd ≈ 1 menandakan scaling sukses.

  1. Konsistensi Struktur Klaster

Silhouette optional:

library(cluster)
sil <- silhouette(clusters, dist_matrix)
plot(sil, main = "Silhouette Plot")

mean(sil[,3])
## [1] 0.456841

Keputusan nilai silhouette:

  • 0.5 = sangat baik

  • 0.2–0.5 = cukup

  • < 0.2 = cluster kurang kuat

3.6 Pembahasan Hasil

  • Provinsi dengan kemiskinan rendah & IPM tinggi (misalnya DKI Jakarta, Bali) cenderung masuk klaster yang sama.

  • Provinsi di kawasan timur (Papua, NTT, Maluku) membentuk klaster tersendiri karena tingkat kemiskinan tinggi dan IPM rendah.

  • Klaster tengah berisi provinsi dengan karakteristik moderat.

  • Dendrogram memperlihatkan struktur hirarkis yang konsisten dengan kondisi sosial ekonomi provinsi di Indonesia.

  • Penggunaan Ward.D2 menghasilkan klaster yang cukup seimbang dan meminimasi variasi dalam klaster.

4. Penutup

4.1 Kesimpulan

Berdasarkan analisis Hierarchical Clustering menggunakan metode Ward.D2 dengan variabel persentase kemiskinan, jumlah perceraian, jumlah kota, dan IPM pada 34 provinsi di Indonesia, diperoleh beberapa poin penting:

  1. Data berhasil membentuk 3 klaster utama yang mencerminkan karakteristik sosial ekonomi provinsi di Indonesia.

  2. Klaster 1 berisi provinsi dengan tingkat kemiskinan rendah dan IPM relatif tinggi. Provinsi dalam klaster ini umumnya memiliki pembangunan sosial yang lebih baik.

  3. Klaster 2 menggambarkan kelompok provinsi dengan indikator sosial ekonomi yang moderat—kemiskinan, jumlah perceraian, dan IPM berada pada rentang menengah.

  4. Klaster 3 berisi provinsi dengan tingkat kemiskinan tinggi dan IPM yang lebih rendah, didominasi wilayah Indonesia bagian timur.

  5. Dendrogram menunjukkan struktur pengelompokan yang stabil, dan uji silhouette memberikan gambaran bahwa pemilihan 3 klaster cukup representatif.

  6. Proses scaling data, pemeriksaan korelasi, dan evaluasi validitas klaster menunjukkan bahwa analisis sudah memenuhi asumsi dasar metode clustering.

Secara keseluruhan, metode klaster hierarkis mampu memberikan pemahaman yang komprehensif mengenai pengelompokan provinsi berdasarkan indikator sosial ekonomi yang digunakan.

4.2 Saran

Berdasarkan hasil analisis, beberapa rekomendasi yang dapat dipertimbangkan adalah:

  1. Bagi Pemerintah Daerah: Provinsi dalam Klaster 3 yang memiliki tingkat kemiskinan tinggi dan IPM rendah dapat diprioritaskan dalam program peningkatan pelayanan dasar, pendidikan, dan pemberdayaan ekonomi.

  2. Bagi Peneliti Selanjutnya: Disarankan menambahkan variabel sosial ekonomi lain seperti tingkat pengangguran, tingkat pendidikan, atau PDRB per kapita untuk memperkaya hasil pengelompokan.

  3. Untuk Analisis Lanjutan: Penggunaan metode klaster lain (misalnya k-means, model-based clustering, atau DBSCAN) dapat dibandingkan untuk melihat konsistensi klaster dan meningkatkan robustness hasil.

  4. Untuk Validitas yang Lebih Tinggi: Perlu dilakukan bootstrapping cluster stability untuk memeriksa apakah struktur klaster konsisten terhadap variasi sampel.

Daftar Pustaka

Badan Pusat Statistik (BPS). (2024). Indikator Kesejahteraan Rakyat. https://www.bps.go.id

Everitt, B., Landau, S., Leese, M., & Stahl, D. (2011). Cluster Analysis (5th ed.). Wiley.

Johnson, R. A., & Wichern, D. W. (2007). Applied Multivariate Statistical Analysis. Prentice Hall.

Kaufman, L., & Rousseeuw, P. J. (2005). Finding Groups in Data: An Introduction to Cluster Analysis. Wiley.

Tan, P.-N., Steinbach, M., & Kumar, V. (2019). Introduction to Data Mining. Pearson.