PENDAHULUAN

Latar Belakang

Perkembangan sosial dan ekonomi di Indonesia menunjukkan dinamika yang tidak merata di antara provinsi-provinsi yang ada. Setiap daerah memiliki kondisi kesejahteraan yang berbeda, dipengaruhi oleh faktor seperti tingkat kemiskinan, kemampuan pasar tenaga kerja, serta kualitas sumber daya manusia. Variasi kondisi ini penting untuk dipahami secara menyeluruh agar pemerintah mampu menyusun kebijakan pembangunan yang sesuai dengan kebutuhan dan karakteristik masing-masing wilayah. Salah satu pendekatan yang dapat digunakan untuk melihat pola kemiripan antarprovinsi adalah analisis clustering, yaitu teknik statistika yang mengelompokkan objek berdasarkan kedekatan karakteristiknya.

Indikator seperti Persentase Penduduk Miskin, Tingkat Pengangguran Terbuka (TPT), dan Indeks Pembangunan Manusia (IPM) merupakan cerminan penting dari kondisi sosial ekonomi suatu daerah. Data resmi dari Badan Pusat Statistik menunjukkan adanya perbedaan yang cukup jelas antarprovinsi dalam ketiga indikator tersebut. Beberapa provinsi menunjukkan tingkat kemiskinan dan pengangguran yang masih tinggi, sementara provinsi lain telah mengalami peningkatan dalam kualitas hidup masyarakatnya, sebagaimana tercermin dari nilai IPM. Perbedaan ini menandakan bahwa pola pembangunan tidak berlangsung seragam di seluruh wilayah Indonesia.

Untuk memahami hubungan antarprovinsi berdasarkan ketiga indikator tersebut, diperlukan metode analisis yang mampu menggambarkan kedekatan karakteristik secara lebih terstruktur. Analisis clustering hierarki menjadi salah satu metode yang dapat digunakan untuk tujuan tersebut karena mampu memperlihatkan tahapan pengelompokan dalam bentuk diagram bertingkat. Dengan menerapkan metode ini, penelitian bertujuan untuk membentuk kelompok provinsi dengan karakteristik sosial ekonomi yang serupa sehingga pola perbedaan dan kesamaan antarwilayah dapat dipahami dengan lebih jelas. Hasil pengelompokan ini diharapkan dapat memberikan gambaran yang berguna bagi evaluasi pembangunan serta perumusan strategi peningkatan kesejahteraan masyarakat di masa mendatang.

Tujuan Penelitian

Mengelompokkan provinsi-provinsi di Indonesia berdasarkan kemiripan karakteristik sosial ekonomi yang ditunjukkan oleh variabel Persentase Penduduk Miskin, Tingkat Pengangguran Terbuka (TPT), dan Indeks Pembangunan Manusia (IPM).
Mengidentifikasi pola kesamaan dan perbedaan antarprovinsi melalui hasil pengelompokan untuk memahami variasi kondisi kesejahteraan di berbagai wilayah.
Menyajikan struktur pengelompokan provinsi dalam bentuk dendrogram sebagai visualisasi hubungan kedekatan antarwilayah.
Memberikan gambaran kelompok provinsi yang memiliki profil sosial ekonomi serupa sehingga dapat menjadi bahan pertimbangan dalam perencanaan dan evaluasi kebijakan pembangunan daerah.

Data yang Digunakan

Sumber: Badan Pusat Statistik

TINJAUAN PUSTAKA

Analisis Cluster

Analisis cluster merupakan teknik multivariat yang bertujuan mengelompokkan objek berdasarkan tingkat kemiripan karakteristik. Objek yang berada dalam cluster yang sama akan memiliki kesamaan lebih tinggi dibandingkan dengan objek yang berada pada cluster berbeda. Metode ini tidak memiliki variabel dependen, sehingga klasifikasi yang diperoleh sepenuhnya ditentukan oleh pola jarak atau kemiripan antar data. Analisis cluster banyak digunakan dalam ilmu sosial, ekonomi, pemasaran, dan kebijakan publik karena mampu mengungkap struktur alami dari suatu data.

Analisis Cluster Hierarki

Cluster hierarki merupakan metode pengelompokan bertingkat yang menghasilkan struktur berbentuk pohon (dendrogram). Pendekatan ini dapat dilakukan secara agglomerative (penggabungan dari individu menjadi cluster besar) atau divisive (pemecahan cluster besar menjadi lebih kecil). Metode agglomerative adalah yang paling umum, dimulai dari setiap objek sebagai cluster tunggal kemudian digabungkan berdasarkan ukuran jarak tertentu. Keunggulan metode ini adalah mampu memperlihatkan proses penggabungan secara lengkap, sehingga memudahkan interpretasi pola hubungan antar objek. Analisis ini tidak memerlukan penentuan jumlah cluster di awal, sehingga cluster dapat ditentukan berdasarkan interpretasi dendrogram

Pemeriksaan Asumsi

Asumsi Kecukupan Data

KMO digunakan untuk menilai apakah data memiliki kekuatan korelasi yang cukup sehingga layak digunakan dalam analisis multivariat. Walaupun sering digunakan pada analisis faktor, beberapa penelitian juga menggunakannya sebagai indikator awal kelayakan data dalam cluster. Nilai KMO:

≥ 0.80 : Sangat baik

0.60 – 0.79 : Layak

< 0.50 : Tidak memadai

Rumus KMO: \[ \begin{align*} KMO= \frac{\sum r^2_{ij}}{\sum r^2_{ij} + \sum p^2_{ij}} \end{align*} \] dengan \(r_{ij}\) korelasi antarvariabel dan \(p_{ij}\) korelasi parsial antarvariabel. KMO sering digunakan sebagai pra-uji untuk memastikan bahwa struktur korelasi cukup kuat untuk mendukung analisis dimensi atau pengelompokan.

Asumsi Kebebasan Variabel

Variabel yang sangat berkorelasi tinggi dapat mendistorsi proses perhitungan jarak. Matriks korelasi digunakan untuk memeriksa hubungan antar variabel; jika |r| > 0.90, kolinearitas dianggap terlalu tinggi. VIF juga dapat digunakan: \[ \begin{align*} VIF= \frac{1}{1 - R^2} \end{align*} \] VIF > 10 menunjukkan adanya multikolinearitas kuat yang sebaiknya diatasi sebelum analisis cluster.

Standarisasi Data

Variabel dalam skala berbeda harus dinormalisasi agar kontribusi setiap variabel dalam jarak Euclidean tidak saling mendominasi.

Standardisasi Z-score: \[ \begin{align*} z= \frac{x - \bar{x}}{s} \end{align*} \]

Ukuran Jarak

Ukuran jarak digunakan untuk menentukan tingkat kemiripan atau ketidaksamaan antar objek dalam analisis cluster. Semakin kecil jarak antar objek, semakin mirip kedua objek tersebut. Jarak Euclidean adalah ukuran jarak paling umum dan digunakan pada data berskala interval atau rasio.

Rumus Euclidean: \[ \begin{align*} d(i,j)= \sqrt{\sum^p_{k=i} (x_{ik}-x_{jk})^2} \end{align*} \]

Metode Penggabungan

Metode penggabungan menentukan cara menghitung jarak antara kelompok (cluster) pada hierarchical agglomerative clustering.

Single Linkage

Menggunakan jarak minimum antar dua anggota cluster: \[ \begin{align*} D_{single}(A,B)= min\,d(i,j) \end{align*} \]

Complete Linkage

Menggunakan jarak minimum antar dua anggota cluster: \[ \begin{align*} D_{complete}(A,B)= max\,d(i,j) \end{align*} \]

Average Linkage

Menggunakan jarak rata-rata antar dua anggota cluster: \[ \begin{align*} D_{average}(A,B)= \frac{1}{|A||B|}\sum{d(i,j)} \end{align*} \]

Centroid Linkage

Menggunakan jarak antar titik pusat cluster: \[ \begin{align*} D_{centroid}(A,B)= d(\bar{x}_{A},\bar{x}_{B}) \end{align*} \]

Ward Method

Menggabungkan cluster yang menghasilkan peningkatan terkecil pada within–cluster variance \[ \begin{align*} D_{average}(A,B)= \frac{n_{A}n_{B}}{n_{A}+n_{B}}||\bar{x}_{A}-\bar{x}_{B}||^2 \end{align*} \]

Validitas Cluster

Validitas cluster digunakan untuk menilai kualitas hasil pengelompokan, apakah cluster yang terbentuk sudah baik atau tidak.

Indeks Connectivity

Menilai seberapa baik objek berada dalam cluster yang berdekatan dengan tetangganya. Semakin kecil nilai connectivity, semakin baik. \[ \begin{align*} Conn = \sum_{i=1}^{n} \sum_{j \in NN_i} \frac{1}{rank(i,j)} \end{align*} \]

Indeks Dunn

Rasio antara jarak terdekat antar cluster dan diameter cluster terbesar. Nilai Dunn yang lebih tinggi menunjukkan pemisahan cluster yang baik. \[ \begin{align*} D = \frac{ \displaystyle \min_{1 \le i < j \le k} \delta(C_i, C_j)} {\displaystyle \max_{1 \le m \le k} \Delta(C_m)} \end{align*} \]

Indeks Silhouette

Menggabungkan ukuran keterpisahan antar cluster dan kedekatan dalam cluster. Mengukur tingkat kesesuaian objek terhadap cluster-nya.

\[ \begin{align*} s(i) = \frac{b(i) - a(i)} {\max(a(i), b(i))} \end{align*} \]` dengan a(i) = rata-rata jarak objek ke anggota cluster sendiri, dan b(i) = rata-rata jarak ke anggota cluster terdekat berikutnya.

\[ \begin{align*} S= \frac{1}{n}\sum^n_{i=1}s(i) \end{align*} \]` Rata-rata silhouette yang tinggi (mendekati 1) menunjukkan cluster yang rapi dan terpisah.

Dendogram

Dendrogram merupakan visualisasi penggabungan cluster dari awal hingga akhir. Sumbu vertikal menunjukkan jarak penggabungan, sementara cabang-cabangnya menggambarkan struktur cluster. Pemotongan dendrogram pada ketinggian tertentu menentukan jumlah cluster optimal. Visualisasi ini membantu memahami hubungan antar objek dan melihat pola pengelompokan secara hierarkis.

SOURCE CODE

Berikut merupakan source code beserta penjelasan mengenai coding pada RStudio.

# Memanggil library yang diperlukan
library(DT)
library(readxl)
library(cluster)
library(psych)

# Membaca dataset dari file Excel
data <- read_excel("Data laprak 2 prak anmul.xlsx")

# Melihat ringkasan statistik data
summary(data)

# Menghitung KMO (Kaiser-Meyer-Olkin) untuk melihat kelayakan analisis faktor
kmo <- KMO(data[,2:4])
kmo

# Menghitung korelasi Pearson antar variabel
korelasi <- cor(data[,2:4], method = 'pearson')
korelasi

# Melakukan normalisasi baku (Z-score) untuk ketiga variabel
datanormalbaku <- scale(data[,2:4])

# Memberi nama baris agar berurutan
rownames(datanormalbaku) <- 1:nrow(datanormalbaku)

# Melihat beberapa baris pertama data yang sudah dinormalisasi
head(datanormalbaku)

# Menghitung ukuran jarak Euclidean antar observasi
UkuranJarak <- dist(datanormalbaku, method = "euclidean")
UkuranJarak

# Fungsi untuk menghitung korelasi cophenetic dari berbagai metode linkage
calculate_cophenetic_cor <- function(UkuranJarak) {
  
  # Daftar metode linkage yang akan diuji
  methods <- c("single", "average", "complete", "centroid", "ward.D")
  method_names <- c("Single", "Average", "Complete", "Centroid", "Ward")
  
  cat("Menghitung Korelasi Cophenetic...\n")
  
  # Membuat tabel kosong tempat menyimpan hasil
  results <- data.frame(
    Method = method_names,
    Cophenetic_Correlation = NA_real_,
    stringsAsFactors = FALSE
  )
  
  # Loop menghitung korelasi cophenetic tiap metode linkage
  for (i in seq_along(methods)) {
    
    cat(sprintf("• Processing: %s linkage...\n", method_names[i]))
    
    # Melakukan hirarki clustering
    hc <- hclust(UkuranJarak, method = methods[i])
    
    # Menghitung korelasi antara jarak awal dan jarak cophenetic
    results$Cophenetic_Correlation[i] <- round(
      cor(UkuranJarak, cophenetic(hc)), 4
    )
  }
  
  # Mengurutkan hasil dari korelasi terbesar ke terkecil
  results <- results[order(-results$Cophenetic_Correlation), ]
  rownames(results) <- NULL
  
  cat("\nSelesai! Berikut hasil korelasinya:\n")
  return(results)
}

# Menjalankan fungsi menghitung korelasi cophenetic
calculate_cophenetic_cor(UkuranJarak)

# Melakukan hierarchical clustering dengan metode centroid (dipilih dari hasil terbaik)
hc <- hclust(dist(data), method = "centroid")

# Menghitung nilai silhouette untuk menentukan jumlah cluster optimal
sil_values <- c()
for (k in 2:10) {
  cluster_cut <- cutree(hc, k)         # Memotong dendrogram menjadi k cluster
  sil <- silhouette(cluster_cut, dist(data))
  sil_values[k] <- mean(sil[, 3])      # Menyimpan rata-rata nilai silhouette
}

# Plot nilai silhouette untuk menentukan jumlah cluster terbaik
plot(2:10, sil_values[2:10], type = "b",
     xlab = "Jumlah Cluster (k)",
     ylab = "Rata-rata Nilai Silhouette",
     main = "Menentukan Jumlah Cluster Optimal (Hierarchical)")

# Menentukan anggota cluster pada k = 2
anggota <- data.frame(
  Provinsi = data$Provinsi, 
  cluster = cutree(hc, k = 2)
)
anggota

# Membuat dendrogram
plot(hc, 
     main = "Dendrogram dengan 2 Cluster",
     xlab = "Observasi",
     ylab = "Jarak",
     sub = "")

# Menambahkan kotak untuk menandai cluster
rect.hclust(hc, k = 2, border = "red")

# Menyimpan nomor cluster
cluster = anggota$cluster

# Menghitung rata-rata variabel untuk masing-masing cluster
aggregate(data[2:4], list(cluster), mean)

HASIL DAN PEMBAHASAN

Statistika Deskriptif

##    Provinsi         Persentase Penduduk Miskin
##  Length:34          Min.   : 4.250            
##  Class :character   1st Qu.: 6.240            
##  Mode  :character   Median : 8.425            
##                     Mean   :10.089            
##                     3rd Qu.:12.252            
##                     Max.   :26.030            
##  Tingkat Pengangguran Terbuka (TPT) Indeks Pembangunan Manusia
##  Min.   :3.040                      Min.   :63.01             
##  1st Qu.:3.730                      1st Qu.:72.40             
##  Median :4.415                      Median :73.91             
##  Mean   :4.806                      Mean   :73.77             
##  3rd Qu.:5.695                      3rd Qu.:75.02             
##  Max.   :7.970                      Max.   :83.55

Berdasarkan hasil statistik deskriptif terhadap tiga indikator pembangunan daerah, yaitu Persentase Penduduk Miskin, Tingkat Pengangguran Terbuka (TPT), dan Indeks Pembangunan Manusia (IPM), terlihat bahwa masing-masing indikator memiliki sebaran nilai yang cukup beragam antarprovinsi. Pada indikator Persentase Penduduk Miskin, nilai minimum tercatat sebesar 4,25 persen dan maksimum mencapai 26,03 persen. Dengan median sebesar 8,43 persen dan rata-rata 10,09 persen, dapat disimpulkan bahwa sebagian besar provinsi berada pada tingkat kemiskinan yang relatif rendah hingga sedang, meskipun terdapat beberapa provinsi yang memiliki nilai jauh lebih tinggi dari rata-rata nasional. Hal ini menunjukkan adanya ketimpangan tingkat kemiskinan antarwilayah di Indonesia.

Untuk indikator Tingkat Pengangguran Terbuka (TPT), nilai minimum sebesar 3,04 persen dan maksimum sebesar 7,97 persen, dengan median 4,42 persen serta rata-rata 4,81 persen. Variasi TPT antarprovinsi terlihat lebih kecil jika dibandingkan dengan indikator kemiskinan. Sebagian besar provinsi memiliki tingkat pengangguran yang berada pada kisaran menengah, sehingga perbedaan kondisi ketenagakerjaan antarwilayah tidak terlalu mencolok.

Pada indikator Indeks Pembangunan Manusia (IPM), nilai minimum adalah 63,01 dan nilai maksimum mencapai 83,55. Median sebesar 73,91 dan rata-rata 73,77 menunjukkan bahwa mayoritas provinsi berada pada kategori IPM menengah hingga tinggi. Meskipun demikian, rentang nilai yang cukup lebar tetap menunjukkan adanya perbedaan kualitas pembangunan manusia antarprovinsi.

Secara keseluruhan, ketiga indikator tersebut menggambarkan adanya variasi dan ketimpangan kondisi sosial-ekonomi antarprovinsi di Indonesia. Perbedaan inilah yang menjadi dasar penting untuk dilakukan analisis cluster, sehingga provinsi-provinsi dapat dikelompokkan berdasarkan karakteristik yang serupa dan memudahkan proses interpretasi serta perumusan rekomendasi kebijakan.

Pemeriksaan Asumsi

Asumsi Kecukupan Data

## Kaiser-Meyer-Olkin factor adequacy
## Call: KMO(r = data[, 2:4])
## Overall MSA =  0.6
## MSA for each item = 
##         Persentase Penduduk Miskin Tingkat Pengangguran Terbuka (TPT) 
##                               0.59                               0.74 
##         Indeks Pembangunan Manusia 
##                               0.57

Berdasarkan hasil uji Kaiser-Meyer-Olkin (KMO), nilai Overall MSA yang diperoleh adalah 0,60. Nilai ini berada pada kategori “cukup” (mediocre), sehingga data masih dianggap layak untuk dilakukan analisis lebih lanjut yang memerlukan kecukupan sampel dan korelasi antarkomponen, termasuk analisis cluster. Meskipun nilainya tidak tinggi, KMO ≥ 0,50 menunjukkan bahwa pola korelasi antarvariabel sudah memadai untuk digunakan dalam proses pengelompokan.

Nilai MSA untuk masing-masing variabel juga menunjukkan variasi kecukupan yang berbeda-beda. Variabel Persentase Penduduk Miskin memiliki MSA sebesar 0,59, variabel Tingkat Pengangguran Terbuka (TPT) memiliki nilai tertinggi yaitu 0,74, sedangkan Indeks Pembangunan Manusia (IPM) memperoleh nilai 0,57. Secara umum, ketiga variabel ini memenuhi syarat minimal MSA (> 0,50), yang berarti masing-masing variabel memiliki kontribusi korelasi yang cukup terhadap struktur data.

Dengan demikian, hasil uji KMO menunjukkan bahwa ketiga variabel layak digunakan untuk analisis cluster hierarki. Meskipun tingkat kecukupan datanya tidak sangat tinggi, nilai-nilai MSA berada dalam rentang yang dapat diterima sehingga analisis dapat dilanjutkan.

Asumsi Kebebasan variabel

##                                    Persentase Penduduk Miskin
## Persentase Penduduk Miskin                          1.0000000
## Tingkat Pengangguran Terbuka (TPT)                 -0.3334276
## Indeks Pembangunan Manusia                         -0.6935866
##                                    Tingkat Pengangguran Terbuka (TPT)
## Persentase Penduduk Miskin                                 -0.3334276
## Tingkat Pengangguran Terbuka (TPT)                          1.0000000
## Indeks Pembangunan Manusia                                  0.4626766
##                                    Indeks Pembangunan Manusia
## Persentase Penduduk Miskin                         -0.6935866
## Tingkat Pengangguran Terbuka (TPT)                  0.4626766
## Indeks Pembangunan Manusia                          1.0000000

Hasil perhitungan matriks korelasi menunjukkan adanya hubungan yang cukup kuat antarvariabel sosial-ekonomi yang dianalisis. Variabel Persentase Penduduk Miskin memiliki korelasi negatif sedang dengan Tingkat Pengangguran Terbuka (TPT) sebesar –0,33, yang mengindikasikan bahwa provinsi dengan tingkat kemiskinan lebih tinggi cenderung tidak selalu memiliki tingkat pengangguran yang tinggi. Korelasi negatif yang lebih kuat terlihat antara Persentase Penduduk Miskin dan Indeks Pembangunan Manusia (IPM) sebesar –0,69, yang menunjukkan bahwa semakin tinggi tingkat kemiskinan di suatu provinsi, semakin rendah nilai IPM yang dicapai. Hubungan ini sesuai dengan kondisi umum bahwa kemiskinan berpengaruh terhadap kualitas hidup, pendidikan, dan kesehatan.

Sementara itu, variabel Tingkat Pengangguran Terbuka (TPT) memiliki korelasi positif sebesar 0,46 dengan IPM, yang berarti provinsi dengan IPM lebih tinggi cenderung memiliki tingkat pengangguran yang sedikit lebih tinggi. Hal ini dapat terjadi pada wilayah-wilayah dengan akses pendidikan lebih baik, yang menyebabkan lebih banyak penduduk berpendidikan tinggi yang mencari pekerjaan dan bersaing di pasar kerja.

Secara keseluruhan, korelasi antarvariabel berada pada tingkat yang tidak terlalu tinggi (|r| < 0,80), sehingga tidak menunjukkan adanya multikolinearitas. Kondisi ini mendukung kelayakan ketiga variabel untuk digunakan dalam analisis cluster, karena masing-masing variabel memberikan informasi yang berbeda namun tetap saling berkaitan dalam menggambarkan kondisi sosial-ekonomi antarprovinsi.

Standarisasi Data

Sebelum melakukan analisis cluster, data terlebih dahulu distandarisasi untuk menghilangkan perbedaan skala antarvariabel.

##   Persentase Penduduk Miskin Tingkat Pengangguran Terbuka (TPT)
## 1                  0.8412993                          0.6549537
## 2                 -0.3740936                          0.3012665
## 3                 -0.7985165                          0.7589794
## 4                 -0.6576853                         -0.3853029
## 5                 -0.4840577                         -0.2119268
## 6                  0.3262042                         -0.1911217
##   Indeks Pembangunan Manusia
## 1                 0.24706420
## 2                 0.36133432
## 3                 0.49686400
## 4                 0.31350032
## 5                -0.01070794
## 6                -0.15686740

Perhitungan Ukuran Jarak

Setelah data distandarisasi, langkah berikutnya adalah menghitung ukuran jarak antarprovinsi sebagai dasar dalam pembentukan cluster. Pada penelitian ini digunakan jarak Euclidean.

##            1         2         3         4         5         6         7
## 2  1.2709572                                                            
## 3  1.6619919 0.6387521                                                  
## 4  1.8257881 0.7443721 1.1674063                                        
## 5  1.6045247 0.6433311 1.1398124 0.4065917                              
## 6  1.0697323 1.0006978 1.6109169 1.1076961 0.8236017                    
## 7  1.7664772 1.8225692 2.4582187 1.6019087 1.5415754 1.0567330          
## 8  1.3959664 1.1672241 1.7660611 1.0787035 0.7895328 0.3320048 1.0029749
## 9  2.3151755 1.2013859 1.4794767 0.5368478 0.7325347 1.4890081 1.8969927
## 10 2.4237798 2.0071167 1.4981813 2.5827799 2.6088410 2.8984647 3.6769069
## 11 3.2944618 2.8513163 2.4175906 3.2727686 3.4219749 3.7475512 4.3145191
## 12 1.9883838 1.8557620 1.4652017 2.5378846 2.3548958 2.4805527 3.4739267
## 13 0.8662021 0.6850462 1.1965272 1.1250884 0.8063898 0.5324720 1.5615339
## 14 2.3624308 2.0358509 2.3770773 1.8936067 2.1628908 2.2074880 1.9122449
## 15 1.2631683 0.7711543 1.4054336 0.7146457 0.5993678 0.4979437 1.0576936
## 16 2.2366852 1.9388902 1.4365968 2.5908919 2.4817205 2.7085796 3.6544359
## 17 2.5706685 1.4994821 1.6640203 1.0055224 1.4112080 2.0163301 2.1608310
## 18 1.5359849 1.6863502 2.3114158 1.5853887 1.3707364 0.7166700 0.6280485
## 19 2.7037590 3.2545589 3.8441530 3.1983636 2.9416124 2.2555242 1.9412523
## 20 2.0544738 1.3638391 1.6807776 1.2051841 0.8825447 1.2146492 1.9649310
## 21 2.2511604 1.1937451 1.5247435 0.5269695 0.6607299 1.3806256 1.7837526
## 22 2.3238394 1.1706744 1.4139262 0.5116806 0.7806516 1.5506151 1.9520629
## 23 1.9075348 1.1977465 0.7549903 1.7086812 1.7813776 2.1458028 2.8665547
## 24 1.9812248 1.0440856 1.4510455 0.5615962 0.4189252 1.0735939 1.6332214
## 25 1.4005749 0.6757917 0.3767996 1.3523705 1.2232401 1.5133268 2.4414154
## 26 1.8066601 1.7316612 2.3377791 1.5047152 1.2889799 0.8355395 0.7929595
## 27 1.1604740 0.1768841 0.7448757 0.8069265 0.6147636 0.8670410 1.7575076
## 28 1.6306520 1.3927477 2.0113917 1.1368642 0.9670026 0.6104562 0.6939332
## 29 2.0768139 2.2697048 2.8918837 2.0752133 1.8843045 1.3080225 0.8439351
## 30 2.3566524 2.1792702 2.7358335 1.8542536 1.6385670 1.3702832 1.2984477
## 31 0.6821638 1.8124073 2.1645491 2.3416288 2.0437419 1.4035039 2.0837479
## 32 1.9973283 1.2327002 1.5349402 1.0833994 0.7652192 1.1821654 1.9611354
## 33 2.2522359 3.1387114 3.5563972 3.4405333 3.0790768 2.3679018 2.7260533
## 34 4.1349672 4.8728811 5.3911974 4.9275640 4.6125097 3.9219794 3.7933746
##            8         9        10        11        12        13        14
## 2                                                                       
## 3                                                                       
## 4                                                                       
## 5                                                                       
## 6                                                                       
## 7                                                                       
## 8                                                                       
## 9  1.3563946                                                            
## 10 3.1349403 2.9094589                                                  
## 11 3.9795763 3.5823653 1.2124257                                        
## 12 2.7003504 2.8380322 1.3530182 2.5586498                              
## 13 0.7766444 1.5378419 2.4389145 3.3752195 1.9487888                    
## 14 2.3256272 2.2558268 3.0268162 3.1153368 3.5613387 2.3484211          
## 15 0.6040377 1.1748424 2.7144718 3.4558031 2.5267765 0.7189959 1.7936342
## 16 2.9293414 2.8821351 0.9190359 2.1125493 0.4966321 2.1844935 3.4857277
## 17 2.0021189 1.0489054 2.7200031 3.0431333 3.1224184 2.0459970 1.5481122
## 18 0.6145437 1.8603804 3.5914029 4.3834265 3.1645832 1.2341587 2.3821291
## 19 2.1567454 3.3851265 5.0414714 5.8977442 4.3715960 2.6653857 3.8005917
## 20 1.0302666 1.1379032 3.1410321 4.0924253 2.5488466 1.2103490 3.0145662
## 21 1.2271052 0.1526771 2.9781731 3.6767052 2.8533489 1.4639403 2.2730466
## 22 1.4464276 0.1632321 2.8098402 3.4474097 2.8091303 1.5738632 2.1636465
## 23 2.3553561 2.0603489 0.8948517 1.6785968 1.5177220 1.7482011 2.2887015
## 24 0.9069659 0.5130671 2.9430369 3.7391762 2.6626972 1.1567129 2.3820675
## 25 1.7098845 1.7065694 1.4928884 2.5203038 1.1988667 1.0266603 2.5218441
## 26 0.5825485 1.6765593 3.7057525 4.5115286 3.2611605 1.3358011 2.5206423
## 27 1.0462020 1.2535338 2.1001451 2.9830610 1.8382695 0.5128961 2.1297290
## 28 0.3857496 1.3769252 3.3752909 4.1377668 3.0438738 1.1095730 2.1678340
## 29 1.1431859 2.2579847 4.1920698 4.9691420 3.7303117 1.8171828 2.7552894
## 30 1.0666005 1.8588345 4.1687242 5.0070884 3.6417981 1.8047834 3.0247829
## 31 1.6705605 2.7755925 2.8706326 3.8270639 2.1481563 1.2475467 2.9992004
## 32 1.0239528 1.0322618 3.0021480 3.9436768 2.4508031 1.1395303 2.9153573
## 33 2.4338649 3.7256595 4.4443252 5.4634183 3.4756407 2.4559560 4.2723301
## 34 3.8532073 5.0957559 6.4651943 7.4261983 5.5526095 4.2129181 5.6081662
##           15        16        17        18        19        20        21
## 2                                                                       
## 3                                                                       
## 4                                                                       
## 5                                                                       
## 6                                                                       
## 7                                                                       
## 8                                                                       
## 9                                                                       
## 10                                                                      
## 11                                                                      
## 12                                                                      
## 13                                                                      
## 14                                                                      
## 15                                                                      
## 16 2.6666919                                                            
## 17 1.5346966 3.0228861                                                  
## 18 0.9980845 3.4143621 2.3825203                                        
## 19 2.6312316 4.7244031 3.9872728 1.6411425                              
## 20 1.3207528 2.7783196 2.1307874 1.5660313 2.7940040                    
## 21 1.0941498 2.9221907 1.1519521 1.7261017 3.2368194 1.0335332          
## 22 1.1984292 2.8268130 0.9032562 1.9481011 3.5005345 1.2704476 0.3031900
## 23 1.8869536 1.2838873 1.8663671 2.8252354 4.3662715 2.4247064 2.1276216
## 24 0.9015391 2.7921066 1.4506824 1.4567993 2.9481085 0.7053538 0.3877675
## 25 1.4152476 1.2712045 1.9743506 2.2297818 3.6872391 1.6831275 1.7230812
## 26 1.0623776 3.5064120 2.3137548 0.3748031 1.7161556 1.3488714 1.5312936
## 27 0.7193571 1.9664773 1.6383034 1.5697616 3.1108396 1.2709502 1.2259303
## 28 0.6825020 3.2449137 1.9329547 0.4932183 2.0771205 1.2711065 1.2434751
## 29 1.5612250 3.9989544 2.8033077 0.6008205 1.1979661 1.9249225 2.1145032
## 30 1.5842590 3.9063695 2.6343766 0.9501091 1.6763636 1.3912372 1.7068865
## 31 1.7604358 2.5044538 3.1815459 1.7064746 2.4644925 2.2464655 2.6910599
## 32 1.2447578 2.6618654 2.0089589 1.5915479 2.8870709 0.1541833 0.9379180
## 33 2.8565601 3.9192338 4.3839873 2.2124163 1.7063076 2.8624204 3.5978833
## 34 4.3655630 5.9858590 5.7941560 3.4257953 1.8697878 4.2816372 4.9459846
##           22        23        24        25        26        27        28
## 2                                                                       
## 3                                                                       
## 4                                                                       
## 5                                                                       
## 6                                                                       
## 7                                                                       
## 8                                                                       
## 9                                                                       
## 10                                                                      
## 11                                                                      
## 12                                                                      
## 13                                                                      
## 14                                                                      
## 15                                                                      
## 16                                                                      
## 17                                                                      
## 18                                                                      
## 19                                                                      
## 20                                                                      
## 21                                                                      
## 22                                                                      
## 23 1.9557325                                                            
## 24 0.6389195 2.1169081                                                  
## 25 1.6669627 0.8836265 1.5692372                                        
## 26 1.7864188 2.9132273 1.2673249 2.2922812                              
## 27 1.2447601 1.3256979 1.0220090 0.7032018 1.6215568                    
## 28 1.4651709 2.5572209 1.0081595 2.0001010 0.4066295 1.3050709          
## 29 2.3628569 3.4190884 1.8748051 2.8183493 0.6132927 2.1558223 0.9402941
## 30 1.9989173 3.3754103 1.4682368 2.7092357 0.6109097 2.0705317 0.9387740
## 31 2.8134988 2.4686359 2.3635143 1.8486935 1.9770234 1.6682975 1.9354342
## 32 1.1553450 2.2787357 0.6125189 1.5528878 1.3938577 1.1496435 1.2710534
## 33 3.8234669 4.0207145 3.2228663 3.2639095 2.3814184 2.9662459 2.6172176
## 34 5.2227131 5.9204818 4.6181200 5.1644513 3.4911409 4.7085722 3.8614460
##           29        30        31        32        33
## 2                                                   
## 3                                                   
## 4                                                   
## 5                                                   
## 6                                                   
## 7                                                   
## 8                                                   
## 9                                                   
## 10                                                  
## 11                                                  
## 12                                                  
## 13                                                  
## 14                                                  
## 15                                                  
## 16                                                  
## 17                                                  
## 18                                                  
## 19                                                  
## 20                                                  
## 21                                                  
## 22                                                  
## 23                                                  
## 24                                                  
## 25                                                  
## 26                                                  
## 27                                                  
## 28                                                  
## 29                                                  
## 30 0.8046541                                        
## 31 2.1392438 2.4421061                              
## 32 1.9853346 1.4867463 2.2286305                    
## 33 2.2317812 2.5258603 1.6525055 2.9346262          
## 34 3.0471999 3.3498616 3.6555391 4.3968554 2.1327306

Perhitungan Metode Penggabungan

Penentuan metode klasterisasi terbaik dalam analisis cluster dilakukan dengan melihat nilai korelasi cophenetic dari masing-masing metode linkage. Semakin tinggi nilai korelasi cophenetic, semakin baik metode tersebut dalam merepresentasikan jarak asli antar objek ke dalam dendrogram.

## Menghitung Korelasi Cophenetic...
## • Processing: Single linkage...
## • Processing: Average linkage...
## • Processing: Complete linkage...
## • Processing: Centroid linkage...
## • Processing: Ward linkage...
## 
## Selesai! Berikut hasil korelasinya:

##     Method Cophenetic_Correlation
## 1 Centroid                 0.7807
## 2  Average                 0.7783
## 3 Complete                 0.7511
## 4   Single                 0.7471
## 5     Ward                 0.6916

Berdasarkan hasil perhitungan, terlihat bahwa metode Centroid Linkage memiliki nilai korelasi cophenetic tertinggi yaitu sebesar 0.7807. Dengan demikian, Centroid Linkage ditetapkan sebagai metode terbaik dalam analisis klaster pada data ini karena paling mampu menggambarkan struktur jarak sebenarnya dibandingkan metode linkage lainnya.

Penentuan Jumlah Cluster Optimal

Berdasarkan grafik nilai rata-rata Silhouette di atas, terlihat bahwa jumlah cluster dengan nilai Silhouette tertinggi adalah pada k = 2. Nilai Silhouette pada k = 2 merupakan yang paling besar dibandingkan dengan jumlah cluster lainnya, sehingga menunjukkan bahwa pemisahan cluster pada k = 2 adalah yang paling optimal.

Hal ini mengindikasikan bahwa struktur cluster paling jelas dan paling baik terbentuk ketika data dibagi menjadi 2 kelompok, karena jarak antar-cluster cukup jauh dan objek dalam cluster relatif homogen.

Dengan demikian, jumlah cluster optimal untuk analisis hierarchical clustering pada dataset ini adalah sebanyak 2 cluster.

Penentuan Anggota Cluster

##                     Provinsi cluster
## 1                       Aceh       1
## 2             Sumatera Utara       1
## 3             Sumatera Barat       1
## 4                       Riau       1
## 5                      Jambi       1
## 6           Sumatera Selatan       1
## 7                   Bengkulu       1
## 8                    Lampung       1
## 9  Kepulauan Bangka Belitung       1
## 10            Kepulauan Riau       1
## 11               DKI Jakarta       1
## 12                Jawa Barat       1
## 13               Jawa Tengah       1
## 14             DI Yogyakarta       1
## 15                Jawa Timur       1
## 16                    Banten       1
## 17                      Bali       1
## 18       Nusa Tenggara Barat       1
## 19       Nusa Tenggara Timur       2
## 20          Kalimantan Barat       1
## 21         Kalimantan Tengah       1
## 22        Kalimantan Selatan       1
## 23          Kalimantan Timur       1
## 24          Kalimantan Utara       1
## 25            Sulawesi Utara       1
## 26           Sulawesi Tengah       1
## 27          Sulawesi Selatan       1
## 28         Sulawesi Tenggara       1
## 29                 Gorontalo       1
## 30            Sulawesi Barat       1
## 31                    Maluku       1
## 32              Maluku Utara       1
## 33               Papua Barat       2
## 34                     Papua       2

Berdasarkan hasil pemotongan dendrogram menggunakan k = 2 cluster, seluruh provinsi dikelompokkan ke dalam dua kelompok. Cluster 1 berisi sebagian besar provinsi, seperti Aceh, Sumatera Utara, DKI Jakarta, Jawa Barat, Jawa Tengah, Jawa Timur, Bali, dan hampir semua provinsi lainnya. Sementara itu, Cluster 2 hanya terdiri dari beberapa provinsi, yaitu Nusa Tenggara Timur, Papua Barat, dan Papua.

Pembagian ini menunjukkan bahwa ketiga provinsi dalam Cluster 2 memiliki karakteristik yang berbeda cukup signifikan dibandingkan provinsi-provinsi lain sehingga membentuk kelompok tersendiri. Sementara provinsi dalam Cluster 1 memiliki kemiripan karakteristik satu sama lain sehingga dikelompokkan bersama dalam cluster yang lebih besar.

Dendogram

Dendrogram tersebut memperlihatkan struktur pengelompokan provinsi berdasarkan kemiripan karakteristik datanya. Garis vertikal yang lebih pendek menunjukkan bahwa provinsi-provinsi tersebut memiliki tingkat kemiripan yang tinggi, sedangkan garis vertikal yang lebih panjang menunjukkan perbedaan yang lebih besar.

Dengan pemotongan pada k = 2 cluster, diperoleh dua kelompok utama: 1. Cluster besar di bagian kanan dendrogram (ditandai kotak besar merah) berisi sebagian besar provinsi di Indonesia. Hal ini menunjukkan bahwa provinsi-provinsi tersebut memiliki karakteristik yang relatif mirip satu sama lain sehingga tergabung dalam satu kelompok besar. Kemiripan karakteristik antar provinsi dalam cluster ini cukup tinggi, terlihat dari jarak penggabungan (merge height) yang lebih rendah. 2. Di sisi kiri dendrogram terdapat kelompok kecil berisi tiga provinsi. Cluster kecil ini terbentuk pada ketinggian jarak (height) yang lebih tinggi, menandakan bahwa ketiga provinsi tersebut cukup berbeda dari provinsi lainnya. Perbedaan ini cukup besar sehingga mereka membentuk cluster tersendiri.

Karakteristik Tiap Cluster

##   Group.1 Persentase Penduduk Miskin Tingkat Pengangguran Terbuka (TPT)
## 1       1                   8.920968                           4.879677
## 2       2                  22.160000                           4.040000
##   Indeks Pembangunan Manusia
## 1                   74.49387
## 2                   66.29333

Berdasarkan hasil perhitungan rata-rata untuk setiap variabel pada masing-masing cluster, terlihat adanya perbedaan karakteristik sosial-ekonomi yang cukup jelas antara kedua kelompok provinsi. Cluster 1 menunjukkan kondisi yang relatif lebih baik, dengan rata-rata persentase penduduk miskin sebesar 8,92%, tingkat pengangguran terbuka sekitar 4,88%, dan Indeks Pembangunan Manusia (IPM) yang lebih tinggi yaitu 74,49. Hal ini mengindikasikan bahwa provinsi-provinsi dalam Cluster 1 memiliki tingkat kesejahteraan yang lebih baik, ditandai oleh kemiskinan yang lebih rendah serta kualitas pendidikan, kesehatan, dan ekonomi yang lebih tinggi.

Sebaliknya, Cluster 2 memiliki karakteristik yang menunjukkan kondisi pembangunan yang lebih tertinggal. Rata-rata persentase penduduk miskin mencapai 22,16%, jauh lebih tinggi dibandingkan Cluster 1, sementara tingkat pengangguran terbuka berada pada angka 4,04%. Selain itu, IPM pada cluster ini hanya 66,29, yang mencerminkan kualitas hidup yang lebih rendah. Secara keseluruhan, hasil tersebut menggambarkan bahwa provinsi dalam Cluster 2 cenderung menghadapi tantangan sosial-ekonomi yang lebih berat dibandingkan provinsi dalam Cluster 1.

PENUTUP

Kesimpulan

Berdasarkan hasil analisis clustering menggunakan metode hierarchical clustering dengan pemilihan metode pengelompokan terbaik melalui nilai korelasi cophenetic, diperoleh bahwa Average Linkage merupakan metode yang menghasilkan struktur cluster paling baik. Penentuan jumlah cluster optimal menggunakan nilai silhouette menunjukkan bahwa pemisahan data menjadi dua cluster merupakan pilihan yang paling tepat. Hasil dendrogram dan perhitungan rata-rata variabel pada tiap cluster menunjukkan adanya perbedaan karakteristik sosial-ekonomi yang cukup signifikan antara kedua kelompok provinsi. Cluster pertama terdiri dari sebagian besar provinsi yang memiliki tingkat kemiskinan lebih rendah, IPM lebih tinggi, serta kondisi sosial-ekonomi yang relatif lebih baik. Sementara itu, cluster kedua berisi provinsi-provinsi yang memiliki tingkat kemiskinan jauh lebih tinggi dan IPM lebih rendah, sehingga menggambarkan kondisi pembangunan yang tertinggal. Secara keseluruhan, analisis ini mampu mengelompokkan provinsi berdasarkan kemiripan karakteristik sehingga dapat memberikan gambaran yang jelas mengenai perbedaan tingkat kesejahteraan antarwilayah.

Saran

Berdasarkan hasil pengelompokan yang menunjukkan adanya ketimpangan sosial-ekonomi antarprovinsi, disarankan agar pemerintah atau pihak terkait memberikan perhatian lebih kepada provinsi yang tergabung dalam Cluster 2, terutama dalam program pengentasan kemiskinan, peningkatan kualitas pendidikan, dan pemerataan pembangunan. Intervensi kebijakan yang lebih terarah dan berbasis data diperlukan untuk mendorong peningkatan IPM serta mengurangi kesenjangan antarwilayah. Selain itu, penelitian lebih lanjut dapat mempertimbangkan penambahan variabel lain atau metode clustering yang berbeda untuk memperoleh gambaran yang lebih komprehensif. Penggunaan data terbaru secara berkala juga penting untuk memantau perubahan kondisi sosial-ekonomi dan menilai efektivitas kebijakan yang telah diterapkan.

DAFTAR PUSTAKA

Badan Pusat Statistik Indonesia. (25 Juli 2025). Persentase Penduduk Miskin (P0) Menurut Provinsi dan Daerah, 2023. Diakses pada 3 Desember 2025.

Badan Pusat Statistik Indonesia. Tingkat Pengangguran Terbuka (TPT) dan Tingkat Partisipasi Angkatan Kerja (TPAK) Menurut Provinsi, 2023. Diakses pada 3 Desember 2025.

Badan Pusat Statistik Indonesia. (18 Februari 2024). Indeks Pembangunan Manusia Menurut Provinsi, 2023. Diakses pada 3 Desember 2025.

Agustina, N., & Susanti, R. (2021). Analisis cluster hierarki untuk pengelompokan kabupaten/kota berdasarkan indikator kesejahteraan masyarakat. Konstelasi: Konvergensi Teknologi dan Sistem Informasi, 2(2), 102–113.

Firmansyah, D., & Handoko, L. (2020). Implementasi algoritma hierarchical clustering dalam pengelompokan data mahasiswa. Komputika: Jurnal Sistem Komputer, 9(1), 23–31.

Mardiana, A., & Pratama, R. (2022). Penerapan metode clustering dalam menentukan karakteristik wilayah menggunakan pendekatan hierarchical agglomerative clustering. Motekar: Jurnal Ilmu Multidisiplin, 4(1), 45–55.

Tumbelaka, M. R., & Pangemanan, J. (2023). Analisis pengelompokan wilayah menggunakan metode hierarchical clustering dengan variasi ukuran jarak dan linkage. Jurnal DeCartesian, 12(4), 88–99.

Klaster Sosial-Ekonomi Provinsi Indonesia 2023: Analisis Kemiskinan, Pengangguran, dan IPM Menggunakan Cluster Hirarki

Revalina Tiara Putri Ivandi

2025-11-28

PENDAHULUAN

Latar Belakang

Tujuan Penelitian

Data yang Digunakan

TINJAUAN PUSTAKA

Analisis Cluster

Analisis Cluster Hierarki

Pemeriksaan Asumsi

Asumsi Kecukupan Data

Asumsi Kebebasan Variabel

Standarisasi Data

Ukuran Jarak

Metode Penggabungan

Single Linkage

Complete Linkage

Average Linkage

Centroid Linkage

Ward Method

Validitas Cluster

Indeks Connectivity

Indeks Dunn

Indeks Silhouette

Dendogram

SOURCE CODE

HASIL DAN PEMBAHASAN

Statistika Deskriptif

Pemeriksaan Asumsi

Asumsi Kecukupan Data

Asumsi Kebebasan variabel

Standarisasi Data

Perhitungan Ukuran Jarak

Perhitungan Metode Penggabungan

Penentuan Jumlah Cluster Optimal

Penentuan Anggota Cluster

Dendogram

Karakteristik Tiap Cluster

PENUTUP

Kesimpulan

Saran

DAFTAR PUSTAKA