Pendahuluan

Ketersediaan sarana kesehatan merupakan salah satu aspek fundamental dalam pembangunan sektor kesehatan di Indonesia. Jumlah fasilitas seperti rumah sakit, puskesmas, poliklinik, serta apotek mencerminkan kemampuan suatu wilayah dalam menyediakan akses layanan kesehatan bagi masyarakat. Ketimpangan distribusi fasilitas kesehatan antarprovinsi berpotensi menimbulkan perbedaan kualitas layanan, panjang antrean pelayanan, hingga beban kerja tenaga medis. Oleh karena itu, diperlukan suatu analisis yang mampu mengelompokkan provinsi berdasarkan kemiripan karakteristik sarana kesehatan untuk mengidentifikasi pola pemerataan fasilitas kesehatan. Data yang digunakan pada penelitian ini merupakan data jumlah sarana kesehatan pada 34 provinsi di Indonesia, meliputi variabel Rumah Sakit (X₁), Rumah Sakit Bersalin (X₂), Poliklinik (X₃), Puskesmas (X₄), Puskesmas Pembantu (X₅), dan Apotek (X₆). Data tersebut berasal dari Badan Pusat Statistik (BPS), yang dapat diakses melalui tautan: https://www.bps.go.id/id/statistics-table/2/MjMzIzI=/number-of-villages-sub-districts-having-health-facilities-by-province.html . Setiap variabel merepresentasikan jumlah fasilitas kesehatan yang tersedia di masing-masing provinsi. Sebagai ilustrasi, cuplikan data sarana kesehatan dapat dilihat pada tabel berikut.

## # A tibble: 34 × 7
##   ...1           `Rumah Sakit` `Rumah Sakit Bersalin` Poliklinik Puskesmas
##   <chr>                  <dbl>                  <dbl>      <dbl>     <dbl>
## 1 ACEH                      64                    225        258       395
## 2 SUMATERA UTARA           199                    441        800       661
## 3 SUMATERA BARAT            54                    139        127       294
## 4 RIAU                      55                    207        329       272
## 5 JAMBI                     36                    151        103       231
##   `Puskesmas Pembantu` Apotek
##                  <dbl>  <dbl>
## 1                  971    346
## 2                 1887    740
## 3                  721    257
## 4                 1033    351
## 5                  654    211
## # ℹ 29 more rows

Data sarana kesehatan antarprovinsi menunjukkan variasi yang cukup besar. Melihat kondisi ini, diperlukan metode pengelompokan yang mampu menangkap kemiripan antarprovinsi secara komprehensif. Metode Hierarchical Clustering dipilih karena mampu membangun struktur pengelompokan secara bertahap tanpa perlu menentukan jumlah cluster sejak awal, serta menghasilkan dendrogram yang menggambarkan tingkat kemiripan antarprovinsi. Penelitian terdahulu menunjukkan bahwa metode hierarki lebih optimal digunakan pada dataset kecil karena prosesnya stabil dan tidak dipengaruhi titik awal, sedangkan metode non-hierarki seperti K-Means bersifat iteratif dan sensitif terhadap inisialisasi (Maulana & Wijayanto, 2025). Dengan mempertimbangkan karakteristik data 34 provinsi, penelitian ini menggunakan pendekatan agglomerative dengan metode Ward’s Linkage (Ward.D2), yang bertujuan meminimalkan variasi dalam cluster sehingga menghasilkan kelompok yang lebih kompak dan homogen.

Berdasarkan latar belakang tersebut, penelitian ini bertujuan untuk:

1.Mengidentifikasi pola kemiripan sarana kesehatan antarprovinsi di Indonesia.

2.Membentuk kelompok provinsi berdasarkan karakteristik fasilitas kesehatan melalui metode Hierarchical Clustering.

3.Menentukan jumlah cluster yang paling representatif menggunakan dendrogram dan ukuran validitas internal.

4.Mendeskripsikan profil setiap cluster untuk memahami perbedaan kondisi sarana kesehatan antardaerah.

5.Memberikan dasar empiris bagi analisis ketimpangan fasilitas kesehatan untuk mendukung perumusan kebijakan.

Tinjauan Pustaka

Analisis Cluster

Analisis klaster merupakan teknik analisis yang digunakan untuk mengelompokkan objek pengamatan ke dalam beberapa kelompok, di mana objek dalam satu kelompok memiliki kemiripan tinggi namun berbeda dari kelompok lainnya. Maulana dan Wijayanto menjelaskan bahwa analisis klaster umumnya terbagi menjadi dua pendekatan, yaitu metode hierarki dan non-hierarki atau partisi. Pada metode non-hierarki, proses pengelompokan dilakukan dengan terlebih dahulu menentukan jumlah klaster serta memilih centroid awal. Sebaliknya, metode hierarki berjalan secara bertahap tanpa memerlukan informasi jumlah klaster sejak awal. Pada pendekatan ini, pengelompokan objek diperoleh melalui perhitungan kedekatan antar objek yang kemudian divisualisasikan dalam bentuk dendrogram.

Pre processing

Sebelum melakukan analisis, tahap awal yang dilakukan adalah proses prapengolahan data. Langkah pertama yaitu memeriksa apakah terdapat nilai hilang pada data. Selanjutnya dilakukan pengecekan tipe data untuk memastikan seluruh variabel sesuai dengan kebutuhan analisis. Tahap prapengolahan terakhir adalah proses standarisasi data. Standarisasi merupakan proses mengubah skala variabel yang memiliki satuan berbeda menjadi skala yang seragam, sehingga data memiliki rataan nol dan simpangan baku sebesar satu (Maulana & Wijayanto). Proses ini penting agar setiap variabel memiliki kontribusi yang seimbang dalam analisis klaster(Maulana & Wijayanto, 2024) dan dapat dihitung menggunakan rumus : \[ z_{ij} = \frac{x_{ij} - \bar{x}_j}{s_j} \]

Keterangan :

\(x_{ij}\) = nilai jenis sarana kesehatan variabel j untuk provinsi i

\(\bar{x}_j\) = rata-rata jumlah sarana kesehatan jenis j di semua provinsi

\(s_j\) = standar deviasi jumlah sarana kesehatan jenis j di semua provinsi

Metode Ward

Metode Ward merupakan teknik pengelompokan yang memilih pasangan klaster untuk digabung berdasarkan peningkatan Error Sum of Squares (ESS) yang paling kecil. Dengan kata lain, dua klaster yang disatukan adalah klaster yang memberikan tambahan variasi dalam kelompok seminimal mungkin. Pada langkah ketiga dari proses agglomerative, jarak antara suatu klaster dengan klaster lainnya dihitung menggunakan rumus pengukuran jarak khusus yang dikembangkan dalam metode ini (Maulana & Wijayanto). \[ ESS = \sum_{j=1}^{N} (x_j - \bar{x})'(x_j - \bar{x}) \]

Keterangan :

\(x_j\) menyatakan nilai pengukuran untuk jumlah sarana kesehatan jenis ke-\(j\)

\(\bar{x}\) adalah nilai rata-rata dari seluruh item.

Jarak Euclidean

Jarak Euclidean merupakan ukuran jarak antara dua titik dalam ruang Euclidean. Konsep ini pertama kali diperkenalkan oleh seorang matematikawan Yunani untuk memahami hubungan antara jarak dan sudut dalam geometri. Dalam konteks analisis data atau pengelompokan, jarak Euclidean digunakan untuk mengukur kedekatan antara sebuah titik data dengan titik pusat (centroid) suatu klaster. Nilai jarak ini menjadi dasar dalam menentukan objek mana yang paling dekat atau paling mirip dengan suatu centroid (Faisal Nur Cahya, Yudi Mahatma, & Siti Rohmah Rohimah). Adapun rumus jarak Euclidean dinyatakan sebagai berikut: \[d_{(ik)} = \sqrt{\sum_{j=1}^{p} (x_{ij} - x_{kj})^2}\]
Keterangan :

\(d_{ik}\)= jarak Euclidean antara provinsi i dan provinsi k

\(i, k\) = indeks provinsi

\(j\) = jenis sarana kesehatan (variabel)

\(p\) = jumlah jenis sarana kesehatan

\(x_{ij}, x_{kj}\) = nilai variabel j untuk provinsi i dan k

Source Code

library(readxl)       #Untuk membaca file excel ke dalam R
library(dplyr)        #Untuk manipulasi data sehingga Memudahkan membersihkan dan merapikan dataset.
library(ggplot2)      #Untuk membuat visualisasi data
library(cluster)      #Menyediakan fungsi untuk melakukan clustering seperti fungsi hcut() yang digunakan untuk menentukan jumlah cluster optimal (silhouette).
library(factoextra)  #Untuk memvisualisasikan hasil clustering dan analisis multivariat

#Mengimpor data dari excel
df <- read_excel("C:/Users/akmal/Downloads/Jumlah Desa_Kelurahan Yang Memiliki Sarana Kesehatan Menurut Provinsi, 2018.xlsx")

# melihat 6 baris pertama
head(df)

# pisahkan variabel provinsi dan variabel numerik
provinsi <- df[[1]]
data_num <- df[ , -1]   # selain kolom provinsi

# pastikan semuanya numeric
data_num <- data.frame(apply(data_num, 2, as.numeric))

#Menstandarisasi data numerik (data_num) sehingga setiap variabel memiliki rata-rata = 0 dan standar deviasi = 1.
data_scaled <- scale(data_num)

#Menghitung jarak Euclidean antarprovinsi berdasarkan variabel yang telah distandarisasi.
dist_matrix <- dist(data_scaled, method = "euclidean")

#Melakukan Hierarchical Clustering menggunakan Ward’s method (Ward.D2).
hc_ward <- hclust(dist_matrix, method = "ward.D2")

#Membuat dendrogram untuk memvisualisasikan hasil hierarki cluster.
fviz_dend(hc_ward, 
          cex = 0.6, 
          k = NULL, 
          lwd = 0.8,
          main = "Dendrogram – Hierarchical Clustering (Ward.D2)")
#Menentukan jumlah cluster optimal menggunakan metode silhouette.
fviz_nbclust(data_scaled, FUN = hcut, method = "silhouette") +
  labs(title = "Penentuan Jumlah Cluster Optimal – Silhouette")
#Memotong dendrogram untuk membentuk 2 cluster (berdasarkan hasil silhouette/dendrogram)
clusters <- cutree(hc_ward, k = 2)

#Menggabungkan nama provinsi dengan hasil clustering.
hasil_cluster <- data.frame(Provinsi = provinsi, Cluster = clusters)
print(hasil_cluster)

#menggabungkan data asli ke hasil cluster dan menghitung rata-rata tiap variabel per cluster untuk membuat profil cluster.
profil_cluster <- hasil_cluster %>%
  mutate(across(.cols = everything())) %>%
  left_join(df, by = c("Provinsi" = names(df)[1])) %>%
  group_by(Cluster) %>%
  summarise(across(where(is.numeric), mean, .names = "mean_{.col}"))
print(profil_cluster)

#Membuat scatter plot cluster menggunakan koordinat data distandarisasi.
fviz_cluster(list(data = data_scaled, cluster = clusters),
             geom = "point",
             ellipse.type = "norm",
             main = "Visualisasi Cluster Provinsi Berdasarkan Sarana Kesehatan")

Hasil dan Pembahasan

## # A tibble: 34 × 7
##   ...1             `Rumah Sakit` `Rumah Sakit Bersalin` Poliklinik Puskesmas
##   <chr>                    <dbl>                  <dbl>      <dbl>     <dbl>
## 1 ACEH                        64                    225        258       395
## 2 SUMATERA UTARA             199                    441        800       661
## 3 SUMATERA BARAT              54                    139        127       294
## 4 RIAU                        55                    207        329       272
## 5 JAMBI                       36                    151        103       231
## 6 SUMATERA SELATAN            65                    248        195       403
##   `Puskesmas Pembantu` Apotek
##                  <dbl>  <dbl>
## 1                  971    346
## 2                 1887    740
## 3                  721    257
## 4                 1033    351
## 5                  654    211
## 6                  935    244
## # ℹ 28 more rows

Dendrogram hasil pengelompokan Ward.D2 menunjukkan bahwa provinsi-provinsi dalam data memiliki pola yang membentuk beberapa kelompok yang terpisah cukup jelas. Penggabungan pada level height yang tinggi menandakan adanya perbedaan besar antar kelompok utama, sedangkan penggabungan pada height yang rendah menunjukkan bahwa beberapa provinsi memiliki kemiripan yang kuat dalam jumlah sarana kesehatan. Jika dilihat dari struktur percabangannya, pemotongan dendrogram pada height menengah menghasilkan pembagian sekitar tiga kelompok yang stabil, di mana masing-masing kelompok terdiri dari provinsi-provinsi dengan karakteristik sarana kesehatan yang relatif serupa. Secara keseluruhan, dendrogram memperlihatkan bahwa metode Ward.D2 mampu mengelompokkan provinsi berdasarkan tingkat kemiripan fasilitas kesehatan secara cukup jelas dan terstruktur.

Berdasarkan grafik silhouette, nilai rata-rata silhouette tertinggi berada pada k = 2 dengan nilai mendekati 0,80, yang menunjukkan kualitas pemisahan cluster yang sangat baik. Setelah k = 2, nilai silhouette turun cukup tajam dan tidak ada nilai yang melebihi atau mendekati performa cluster pada k = 2.

Dengan demikian, jumlah cluster yang paling optimal untuk data sarana kesehatan adalah 2 cluster, karena memberikan struktur pengelompokan paling jelas dan pemisahan antar kelompok yang paling kuat.

##                Provinsi Cluster
## 1                  ACEH       1
## 2        SUMATERA UTARA       1
## 3        SUMATERA BARAT       1
## 4                  RIAU       1
## 5                 JAMBI       1
## 6      SUMATERA SELATAN       1
## 7              BENGKULU       1
## 8               LAMPUNG       1
## 9  KEP. BANGKA BELITUNG       1
## 10            KEP. RIAU       1
## 11          DKI JAKARTA       1
## 12           JAWA BARAT       2
## 13          JAWA TENGAH       2
## 14        DI YOGYAKARTA       1
## 15           JAWA TIMUR       2
## 16               BANTEN       1
## 17                 BALI       1
## 18  NUSA TENGGARA BARAT       1
## 19  NUSA TENGGARA TIMUR       1
## 20     KALIMANTAN BARAT       1
## 21    KALIMANTAN TENGAH       1
## 22   KALIMANTAN SELATAN       1
## 23     KALIMANTAN TIMUR       1
## 24     KALIMANTAN UTARA       1
## 25       SULAWESI UTARA       1
## 26      SULAWESI TENGAH       1
## 27     SULAWESI SELATAN       1
## 28    SULAWESI TENGGARA       1
## 29            GORONTALO       1
## 30       SULAWESI BARAT       1
## 31               MALUKU       1
## 32         MALUKU UTARA       1
## 33          PAPUA BARAT       1
## 34                PAPUA       1

Hasil analisis clustering menggunakan metode Ward’s D2 menghasilkan dua cluster utama. Cluster pertama mencakup hampir seluruh provinsi di Indonesia, sedangkan cluster kedua hanya terdiri dari tiga provinsi di Pulau Jawa, yaitu Jawa Barat, Jawa Tengah, dan Jawa Timur. Pola ini menunjukkan adanya perbedaan yang cukup signifikan dalam ketersediaan sarana kesehatan antara kedua kelompok provinsi tersebut.

## # A tibble: 2 × 7
##   Cluster `mean_Rumah Sakit` `mean_Rumah Sakit Bersalin` mean_Poliklinik
##     <int>              <dbl>                       <dbl>           <dbl>
## 1       1               46.3                        100.            143.
## 2       2              294.                        1100.           1334.
##   mean_Puskesmas `mean_Puskesmas Pembantu` mean_Apotek
##            <dbl>                     <dbl>       <dbl>
## 1           248.                      651.        208.
## 2          1042.                     1990        1889.

Hasil analisis menunjukkan bahwa Cluster 1 merupakan kelompok wilayah dengan ketersediaan sarana kesehatan yang rendah. Rata-rata jumlah rumah sakit, poliklinik, puskesmas, dan fasilitas lainnya jauh lebih kecil dibandingkan kelompok lainnya. Sebaliknya, Cluster 2 menggambarkan wilayah dengan ketersediaan sarana kesehatan yang sangat tinggi karena hampir semua jenis fasilitas memiliki rata-rata jumlah yang jauh lebih besar. Perbedaan ini menegaskan adanya dua kelompok wilayah dengan tingkat akses layanan kesehatan yang berbeda, sehingga hasilnya dapat menjadi dasar untuk pemerataan pembangunan fasilitas kesehatan.

analisis diatas menunjukkan bahwa provinsi-provinsi di Indonesia terbagi ke dalam dua kelompok utama berdasarkan ketersediaan sarana kesehatan. Kelompok pertama terdiri atas sebagian besar provinsi dengan jumlah fasilitas kesehatan yang relatif rendah, sedangkan kelompok kedua hanya mencakup beberapa provinsi yang memiliki ketersediaan fasilitas jauh lebih tinggi. Pemisahan ini terlihat jelas pada visualisasi dan mengonfirmasi bahwa metode clustering mampu menangkap perbedaan yang signifikan antarwilayah.

Namun, hasil ini tetap memiliki keterbatasan. Proses pengelompokan hanya mempertimbangkan jumlah fasilitas tanpa memasukkan faktor lain seperti kebutuhan pelayanan, jumlah penduduk, atau kualitas layanan, sehingga cluster dapat dipengaruhi oleh ketidakseimbangan skala dan konteks sosial yang tidak tercakup dalam data. Oleh karena itu, meskipun pola yang terbentuk cukup kuat, interpretasi dan penggunaan hasil perlu mempertimbangkan potensi bias dari metode yang digunakan.

Penutup

Kesimpulan

Penelitian ini menunjukkan bahwa distribusi sarana kesehatan antarprovinsi di Indonesia masih berada dalam kondisi yang tidak merata. Melalui analisis hierarchical clustering dengan metode Ward.D2, provinsi-provinsi dikelompokkan menjadi dua cluster utama yang mencerminkan perbedaan signifikan dalam ketersediaan fasilitas kesehatan. Cluster pertama terdiri atas mayoritas provinsi dengan jumlah fasilitas kesehatan yang relatif rendah dan cenderung homogen, sedangkan cluster kedua berisi sedikit provinsi yang memiliki sarana kesehatan jauh lebih lengkap dan mencolok dibandingkan kelompok lainnya.

Struktur dendrogram memperlihatkan bahwa kesenjangan infrastruktur kesehatan tidak hanya bersifat linear, tetapi cukup tajam untuk membentuk dua kelompok yang terpisah dengan jelas. Hal ini menunjukkan bahwa pemusatan fasilitas kesehatan masih terjadi, sehingga sebagian wilayah memiliki akses dan kapasitas pelayanan yang lebih terbatas. Temuan ini mengonfirmasi bahwa ketidakseimbangan dalam penyediaan fasilitas kesehatan merupakan isu penting yang perlu mendapat perhatian dalam penyusunan kebijakan pembangunan kesehatan nasional.

Secara keseluruhan, hasil penelitian mengungkapkan bahwa pengelompokan berbasis sarana kesehatan mampu memberikan gambaran yang lebih sistematis mengenai kondisi riil antarprovinsi. Pengelompokan ini dapat menjadi dasar objektif untuk mengidentifikasi wilayah yang memerlukan prioritas intervensi, serta membantu pemerintah dalam merancang strategi pemerataan fasilitas kesehatan secara lebih terarah.

Dengan demikian, hasil pengelompokan yang diperoleh dalam penelitian ini memberikan dasar empiris yang kuat untuk memahami ketimpangan distribusi sarana kesehatan antarprovinsi. Temuan ini dapat menjadi pijakan penting dalam mendukung penyusunan kebijakan pemerataan fasilitas kesehatan yang lebih terarah dan berbasis data.

Saran

Untuk pengembangan project serupa, disarankan agar analisis tidak hanya menggunakan jumlah sarana kesehatan, tetapi juga memasukkan variabel kebutuhan seperti jumlah penduduk atau rasio tenaga kesehatan. Hal ini akan membuat hasil pengelompokan lebih akurat dalam mencerminkan kondisi riil antarprovinsi.

Selanjutnya, hasil cluster dapat dimanfaatkan secara lebih praktis dengan mengembangkan alat bantu sederhana, seperti dashboard atau peta interaktif, sehingga pihak terkait dapat langsung melihat wilayah prioritas dan membuat keputusan secara cepat. Penggunaan visualisasi yang lebih aplikatif akan meningkatkan nilai penggunaan hasil penelitian.

Project berikutnya juga disarankan membandingkan beberapa metode clustering agar hasil yang dipilih benar-benar merupakan struktur pengelompokan yang paling stabil. Perbandingan metode akan menghemat waktu dalam proses validasi dan meningkatkan keandalan hasil.

Terakhir, setiap cluster yang terbentuk perlu diterjemahkan menjadi rekomendasi tindakan konkret, misalnya menentukan wilayah yang perlu penambahan fasilitas atau pemerataan alokasi sumber daya. Dengan demikian, hasil analisis tidak hanya informatif tetapi juga dapat langsung digunakan sebagai dasar pengambilan keputusan operasional.

daftar pustaka

Cahya, F. N. (2023). Perbandingan Metode Perhitungan Jarak Euclidean dan Manhattan pada Clustering. JMT (Jurnal Matematika dan Terapan), 5(1), 43–55. https://doi.org/10.21009/jmt.5.1.5

Maulana, F., & Wijayanto, A. W. (2025). Algorithm comparison of hierarchical and non-hierarchical clustering method in grouping regional poverty variables. Indonesian Journal of Artificial Intelligence and Data Mining, 8(1), 26–40. https://doi.org/10.24014/ijaidm.v8i1.2939