Oleh:

Amar Bachtiar Tirta Cindhana

NIM. 235090507111054

PROGRAM STUDI STATISTIKA

DEPARTEMEN STATISTIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS BRAWIJAYA

2025

BAB I

PENDAHULUAN

1.1 Latar Belakang

Ketimpangan jumlah fasilitas kesehatan antarprovinsi di Indonesia masih menjadi masalah besar karena memengaruhi kemudahan masyarakat mendapatkan layanan kesehatan yang layak. Beberapa penelitian menunjukkan bahwa fasilitas dan tenaga kesehatan belum tersebar merata—wilayah perkotaan dan Pulau Jawa cenderung memiliki fasilitas lebih banyak dibandingkan daerah terpencil atau wilayah Indonesia timur. Akibatnya, akses masyarakat terhadap layanan kesehatan dasar menjadi berbeda-beda di setiap provinsi. Hal ini terlihat dari tidak seimbangnya jumlah rumah sakit, rumah sakit bersalin, poliklinik, puskesmas, puskesmas pembantu, dan apotek di berbagai daerah,sehingga menyebabkan kesenjangan masyarakat dalam memperoleh layanan kesehatan.

Agar pemerintah dapat membuat kebijakan pemerataan fasilitas kesehatan yang lebih tepat, diperlukan analisis yang melihat pola dan karakteristik tiap provinsi berdasarkan indikator seperti jumlah rumah sakit, puskesmas, dan apotek. Metode pengelompokan (clustering), seperti K-Medoids, sangat berguna untuk mengelompokkan provinsi yang memiliki tingkat ketersediaan fasilitas kesehatan yang mirip. Dengan cara ini, pemerintah dapat mengetahui provinsi mana yang masuk kelompok tinggi, sedang, atau rendah, sehingga alokasi anggaran dan program peningkatan layanan dapat diberikan pada kelompok yang paling membutuhkan. Metode clustering juga banyak digunakan dalam penelitian sebelumnya untuk menggambarkan ketimpangan kesehatan antarwilayah dan sebagai dasar pendukung dalam perumusan kebijakan.

1.2 Rumusan Masalah

1.2.1 Berapa jumlah klaster optimal untuk mengklasifikasikan provinsi di Indonesia berdasarkan persebaran fasilitas kesehatan?

1.2.2 Apa karakteristik masing-masing klaster yang terbentuk dan bagaimana perbedaan kondisi fasilitas kesehatan antar klaster tersebut?

1.2.3 Bagaimana hasil pengelompokan K-Medoids dapat membantu memberikan gambaran ketimpangan fasilitas kesehatan antar provinsi di Indonesia?

1.3 Tujuan

1.3.1 Menentukan jumlah klaster yang paling optimal untuk mengelompokkan provinsi berdasarkan persebaran fasilitas kesehatan.

1.3.2 Menganalisis karakteristik setiap klaster yang terbentuk serta mengidentifikasi perbedaan kondisi fasilitas kesehatan antar klaster.

1.3.3 Menyajikan gambaran ketimpangan fasilitas kesehatan antar provinsi berdasarkan hasil pengelompokan sebagai dasar untuk rekomendasi kebijakan.

1.4 Variabel

Data diperoleh dari website Badan Pusat Statistik (BPS) pada link berikut:

https://shorturl.at/jI2n0

1.4.1 Jumlah rumah sakit

1.4.2 Jumlah rumah sakit bersalin

1.4.3 Jumlah poliklinik

1.4.4 Jumlah puskesmas

1.4.5 Jumlah puskesmas pembantu

1.4.6 Jumlah apotek

BAB II

TINJAUAN PUSTAKA

2.1 Analisis Cluster

Analisis cluster merupakan teknik statistik yang digunakan untuk mengelompokkan sekumpulan objek atau data ke dalam beberapa kelompok berdasarkan kemiripan karakteristiknya (Awaliyah dkk., 2024). Prinsip dasarnya adalah bahwa objek-objek yang berada dalam satu kelompok memiliki kemiripan yang lebih tinggi dibandingkan dengan objek yang berada pada kelompok lain (Hair dkk., 2010). Secara ideal, suatu hasil pengelompokan yang baik ditandai oleh dua hal, yaitu tingginya tingkat kemiripan antar objek dalam satu cluster (homogenitas dalam cluster) dan besarnya perbedaan antar cluster (heterogenitas antar cluster). Dengan demikian, setiap cluster akan menggambarkan kelompok objek yang secara karakteristik benar-benar berbeda dari kelompok lainnya.

Dalam praktiknya, analisis cluster dibedakan menjadi dua pendekatan utama, yaitu metode hirarki dan non-hirarki. Metode hirarki digunakan ketika jumlah cluster belum ditentukan sebelumnya. Prosesnya dimulai dengan mengelompokkan objek yang paling mirip, kemudian dilanjutkan secara bertahap hingga membentuk struktur bertingkat yang biasanya divisualisasikan melalui dendrogram. Sementara itu, metode non-hirarki digunakan ketika jumlah cluster telah ditetapkan sejak awal. Prosedurnya diawali dengan menentukan pusat cluster (centroid), kemudian menghitung jarak masing-masing objek ke centroid tersebut. Setelah itu, posisi centroid diperbarui secara iteratif hingga tidak terjadi lagi perubahan pengelompokan.

2.2 Algoritma K-Medoids

K-Medoids, juga dikenal sebagai PAM (Partitioning Around Medoids), adalah metode klaster partisi yang membentuk k klaster dengan memilih medoid (objek nyata dalam data) sebagai pusat tiap klaster. Tujuan K-Medoids adalah meminimalkan jumlah total dissimilaritas antara objek dalam klaster dengan medoidnya, sehingga setiap medoid menjadi representatif nyata dari klaster tersebut.

Salah satu keunggulan utama K-Medoids dibanding K-Means adalah ketahanannya terhadap outlier, karena pusat klaster merupakan data aktual (medoid) sehingga tidak mudah terpengaruh observasi ekstrim. K-Medoids juga dapat diaplikasikan dengan berbagai ukuran dissimilarity sehingga fleksibel untuk data numerik maupun kategori (dengan definisi jarak yang sesuai).

Tahapan K-Medoids Clustering sebagai berikut:

1. Tentukan banyak cluster dengan nilai silhouette, lalu secara acak pilih k objek pada sekumpulan n objek sebagai medoids.

2. Hitung jarak antara objek dan medoid menggunakan jarak Euclidean.

3. Tetapkan cluster untuk tiap objek.

4. Hitung total cost dan cost dari pertukaran medoids Oj dengan Orandom.

\[Cost_k = \sum_{i∈Ck}d(i, m_k) \] \[Total Cost = \sum_{k=1}^KCost_k = \sum_{k=1}^K\sum_{i∈Ck}d(i, m_k)\]

5. Jika Total Costbaru < Total Costlama maka tukar Oj dengan Orandom, untuk membentuk sekumpulan k

objek baru sebagai medoids.

6. Lakukan hingga tidak ada perubahan

2.3 Ukuran Jarak Euclidean Dalam Clustering

Jarak Euclidean ialah akar dari jumlah kuadrat perbedaan/deviasi di dalam nilai untuk setiap variabel. Jarak Euclidean juga biasa disebut sebagai metode perhitungan jarak yang didasarkan pada ruang berdimensi terbatas

bernilai riil. Adapun persamaan untuk menghitung jarak Euclidean adalah sebagai berikut:

\[d(x,y)=\sqrt{\sum_{i=1}^n(x_i-y_i)^2} \] dengan:
\(d(x,y)\) = Jarak Euclidean antar objek \(x\) dan \(y\)
\(x_i\) = Nilai variabel ke-\(i\) objek \(x\)
\(y_i\) = Nilai variabel ke-\(i\) objek \(y\)

2.4 Nilai Silhouette

Nilai silhouette digunakan untuk menilai kecocokan objek, kualitas cluster, memilih jumlah cluster optimal, dan mendeteksi outlier. Berikut adalah rumus untuk menghitungnya:

\[ S(i)=\frac{b(i)-a(i)}{max\{a(i),b(i)\}} \] dengan a(i) dan b(i) sebagai berikut: \[a(i)=\frac{1}{|C|-1}\sum_{j∈C_i, j\not=i}d(i, j)\] \[b(i)=min\frac{1}{|C|}\sum_{j∈C_i}d(i, j)\]

BAB III

SOURCE CODE

3.1 Memanggil Packages

library(tidyverse)
library(readxl)
library(factoextra)
library( cluster)
library(knitr)

1. Packages ‘tidyverse’ digunakan untuk mempermudah manipulasi dan transformasi data sebelum analisis cluster.

2. Packages ‘readxl’ digunakan untuk membaca file Excel berisi dataset yang akan dianalisis.

3. Packages ‘factorextra’ digunakan untuk visualisasi cluster dan pemilihan jumlah cluster optimal dengan silhouette.

4. Packages ‘cluster’ digunakan untuk untuk menjalankan algoritma k-medoids (PAM) dan menghitung silhouette untuk tiap objek s(i).

5. Packages ‘knitr’ digunakan untuk mempermudah penyajian tabel dan ringkasan statistik hasil cluster dalam laporan.

3.2 Import dan Cleaning Data

data.faskes = read_excel('C:/Users/AMAR/Downloads/DATA_SARANA_KESEHATAN.xlsx')
data.faskes
data.clean = data.faskes[, -1]
data.clean

Syntax untuk import dataset dari file excel, kemudian menghapus kolom pertama yang berisi nama Provinsi

3.3 Menentukan Jumlah Cluster Optimal dengan Silhouette

fviz_nbclust(data.clean, pam, method = "silhouette")
Menentukan jumlah cluster optimal dengan Silhouette

3.4 Melakukan Analisis Cluster K-Medoids

set.seed(123)
pam_model <- pam(data.clean, k = 2, metric = 'euclidean')

pam_model$clustering      # cluster tiap provinsi
pam_model$medoids         # medoid dari tiap cluster
pam_model$clusinfo        # informasi cluster

data.faskes$cluster <- pam_model$clustering
data.faskes

Melakukan K-Medoids Clustering dengan jarak Euclidean

3.5 Visualisasi Hasil Cluster

fviz_cluster(pam_model, 
             data = data.clean,
             main = "Hasil Cluster K-Medoids Fasilitas Kesehatan")

3.6 Ringkasan Karakteristik Tiap Cluster

karakteristik <- data.clean %>%
  mutate( cluster = pam_model$clustering) %>%
  group_by(cluster) %>%
  summarise_all("mean")

kable(karakteristik, caption = 'Karakteristik Cluster', digits = 1)

3.7 Validitas Kecocokan Objek ke Dalam Cluster

sil <- silhouette(pam_model$cluster, dist(data.clean, method = 'euclidean'))
sil_df <- as.data.frame(sil)
sil_df
sil_avg <- sil_df %>% 
  group_by(cluster) %>%
  summarise(`Mean Silhouette` = mean(sil_width))

kable(sil_avg, caption = 'Rata-rata nilai silhouette tiap cluster')

Validitas kecocokan objek ke dalam cluster adalah ukuran seberapa baik suatu objek ditempatkan pada cluster tertentu dibandingkan dengan cluster lain.

BAB IV

HASIL DAN PEMBAHASAN

4.1 Import Dataset

data.faskes = read_excel('C:/Users/AMAR/Downloads/DATA_SARANA_KESEHATAN.xlsx')
kable(data.faskes)
Provinsi Rumah Sakit Rumah Sakit Bersalin Poliklinik Puskesmas Puskesmas Pembantu Apotek
ACEH 64 225 258 395 971 346
SUMATERA UTARA 199 441 800 661 1887 740
SUMATERA BARAT 54 139 127 294 721 257
RIAU 55 207 329 272 1033 351
JAMBI 36 151 103 231 654 211
SUMATERA SELATAN 65 248 195 403 935 244
BENGKULU 20 5 49 190 456 141
LAMPUNG 53 238 307 350 936 356
KEP. BANGKA BELITUNG 21 25 25 63 148 73
KEP. RIAU 23 35 76 88 243 90
DKI JAKARTA 119 156 230 257 3 242
JAWA BARAT 292 1245 1670 1170 1800 1758
JAWA TENGAH 274 871 1232 921 1832 2068
DI YOGYAKARTA 61 102 158 126 300 226
JAWA TIMUR 317 1183 1101 1036 2338 1842
BANTEN 87 280 467 267 346 402
BALI 49 61 71 124 495 214
NUSA TENGGARA BARAT 31 20 72 173 550 237
NUSA TENGGARA TIMUR 48 42 108 414 1030 172
KALIMANTAN BARAT 39 95 98 264 836 123
KALIMANTAN TENGAH 19 63 95 221 1101 85
KALIMANTAN SELATAN 34 126 131 253 464 162
KALIMANTAN TIMUR 39 56 125 199 727 196
KALIMANTAN UTARA 11 4 15 59 179 49
SULAWESI UTARA 46 77 68 217 540 170
SULAWESI TENGAH 29 58 60 224 698 181
SULAWESI SELATAN 75 121 180 493 1394 490
SULAWESI TENGGARA 31 56 40 283 557 189
GORONTALO 14 2 42 96 250 97
SULAWESI BARAT 10 8 16 100 340 47
MALUKU 27 20 31 235 481 66
MALUKU UTARA 20 11 28 142 277 76
PAPUA BARAT 16 10 29 177 495 79
PAPUA 41 26 115 422 1146 125
data.clean = data.faskes[, -1]
kable(data.clean)
Rumah Sakit Rumah Sakit Bersalin Poliklinik Puskesmas Puskesmas Pembantu Apotek
64 225 258 395 971 346
199 441 800 661 1887 740
54 139 127 294 721 257
55 207 329 272 1033 351
36 151 103 231 654 211
65 248 195 403 935 244
20 5 49 190 456 141
53 238 307 350 936 356
21 25 25 63 148 73
23 35 76 88 243 90
119 156 230 257 3 242
292 1245 1670 1170 1800 1758
274 871 1232 921 1832 2068
61 102 158 126 300 226
317 1183 1101 1036 2338 1842
87 280 467 267 346 402
49 61 71 124 495 214
31 20 72 173 550 237
48 42 108 414 1030 172
39 95 98 264 836 123
19 63 95 221 1101 85
34 126 131 253 464 162
39 56 125 199 727 196
11 4 15 59 179 49
46 77 68 217 540 170
29 58 60 224 698 181
75 121 180 493 1394 490
31 56 40 283 557 189
14 2 42 96 250 97
10 8 16 100 340 47
27 20 31 235 481 66
20 11 28 142 277 76
16 10 29 177 495 79
41 26 115 422 1146 125

4.2 Menentukan Jumlah Cluster Optimal dengan Silhouette

fviz_nbclust(data.clean, pam, method = "silhouette")

Berdasarkan plot, titik tertinggi pada garis terjadi saat jumlah cluster adalah 2. Oleh karena itu, menurut metode silhouette, jumlah cluster yang optimal adalah 2 cluster. Secara teori pengelompokan Provinsi berdasarkan jumlah fasilitas kesehatan terbagi menjadi 2, yakni Provinsi dengan jumlah fasilitas kesehatan yang banyak dan juga Provinsi dengan jumlah fasilitas kesehatan yang sedikit.

4.3 Analisis Cluster K-Medoids

4.3.1 Melakukan Clustering

##  [1] 1 2 1 1 1 1 1 1 1 1 1 2 2 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
##      Rumah Sakit Rumah Sakit Bersalin Poliklinik Puskesmas Puskesmas Pembantu
## [1,]          46                   77         68       217                540
## [2,]         274                  871       1232       921               1832
##      Apotek
## [1,]    170
## [2,]   2068
##      size  max_diss  av_diss diameter separation
## [1,]   30  960.8397 342.0284 1434.483   914.3025
## [2,]    4 1487.0635 712.1810 1647.707   914.3025
Provinsi Rumah Sakit Rumah Sakit Bersalin Poliklinik Puskesmas Puskesmas Pembantu Apotek cluster
ACEH 64 225 258 395 971 346 1
SUMATERA UTARA 199 441 800 661 1887 740 2
SUMATERA BARAT 54 139 127 294 721 257 1
RIAU 55 207 329 272 1033 351 1
JAMBI 36 151 103 231 654 211 1
SUMATERA SELATAN 65 248 195 403 935 244 1
BENGKULU 20 5 49 190 456 141 1
LAMPUNG 53 238 307 350 936 356 1
KEP. BANGKA BELITUNG 21 25 25 63 148 73 1
KEP. RIAU 23 35 76 88 243 90 1
DKI JAKARTA 119 156 230 257 3 242 1
JAWA BARAT 292 1245 1670 1170 1800 1758 2
JAWA TENGAH 274 871 1232 921 1832 2068 2
DI YOGYAKARTA 61 102 158 126 300 226 1
JAWA TIMUR 317 1183 1101 1036 2338 1842 2
BANTEN 87 280 467 267 346 402 1
BALI 49 61 71 124 495 214 1
NUSA TENGGARA BARAT 31 20 72 173 550 237 1
NUSA TENGGARA TIMUR 48 42 108 414 1030 172 1
KALIMANTAN BARAT 39 95 98 264 836 123 1
KALIMANTAN TENGAH 19 63 95 221 1101 85 1
KALIMANTAN SELATAN 34 126 131 253 464 162 1
KALIMANTAN TIMUR 39 56 125 199 727 196 1
KALIMANTAN UTARA 11 4 15 59 179 49 1
SULAWESI UTARA 46 77 68 217 540 170 1
SULAWESI TENGAH 29 58 60 224 698 181 1
SULAWESI SELATAN 75 121 180 493 1394 490 1
SULAWESI TENGGARA 31 56 40 283 557 189 1
GORONTALO 14 2 42 96 250 97 1
SULAWESI BARAT 10 8 16 100 340 47 1
MALUKU 27 20 31 235 481 66 1
MALUKU UTARA 20 11 28 142 277 76 1
PAPUA BARAT 16 10 29 177 495 79 1
PAPUA 41 26 115 422 1146 125 1

Dari hasil clustering tersebut, diperoleh bahwa provinsi di Indonesia sudah terbagi menjadi 2 kelompok. Pada cluster 1, terdapat 34 provinsi dan pada cluster 2 terdapat 4 provinsi.

4.3.2 Visualisasi Hasil Clustering

fviz_cluster(pam_model, 
             data = data.clean,
             main = "Hasil Cluster K-Medoids Fasilitas Kesehatan")

Dari plot tersebut, diperoleh bahwa provinsi di Indonesia sudah terbagi menjadi 2 kelompok. Pada cluster 1, terdapat 34 provinsi dan pada cluster 2 terdapat 4 provinsi. Namun Provinsi dengan label ‘2’ yakni Sumatera Utara berada sedikit jauh dari cluster 2 dan berada diantara kedua cluster.

4.3.3 Ringkasan Karakteristik Tiap Cluster

Karakteristik Cluster
cluster Rumah Sakit Rumah Sakit Bersalin Poliklinik Puskesmas Puskesmas Pembantu Apotek
1 41.2 88.9 121.6 234.4 610.2 189.9
2 270.5 935.0 1200.8 947.0 1964.2 1602.0

Berdasarkan hasil analisis cluster pada tabel, terlihat bahwa cluster 1 memiliki jumlah fasilitas kesehatan yang jauh lebih sedikit dibandingkan cluster 2. Hal ini menunjukkan bahwa cluster 1 cenderung mewakili wilayah dengan ketersediaan fasilitas kesehatan relatif lebih sedikit. Sebaliknya, cluster 2 ditandai dengan jumlah fasilitas kesehatan yang jauh lebih banyak. Kondisi ini menggambarkan bahwa cluster 2 merupakan kelompok wilayah dengan ketersediaan fasilitas kesehatan yang lebih banyak dibandingkan cluster 1. Dengan demikian, perbedaan utama antara kedua cluster adalah pada jumlah fasilitas kesehatan, di mana cluster 2 berada pada kategori tinggi dan cluster 1 berada pada kategori sedikit

4.3.4 Validitas Kecocokan Objek ke Dalam Cluster

##    cluster neighbor sil_width
## 1        1        2 0.7330053
## 2        2        1 0.0748676
## 3        1        2 0.8373905
## 4        1        2 0.7111212
## 5        1        2 0.8528111
## 6        1        2 0.7616546
## 7        1        2 0.8614787
## 8        1        2 0.7361713
## 9        1        2 0.8087496
## 10       1        2 0.8312591
## 11       1        2 0.7531083
## 12       2        1 0.6427329
## 13       2        1 0.6528023
## 14       1        2 0.8318588
## 15       2        1 0.6658155
## 16       1        2 0.7316945
## 17       1        2 0.8585255
## 18       1        2 0.8592301
## 19       1        2 0.7575939
## 20       1        2 0.8261930
## 21       1        2 0.7478057
## 22       1        2 0.8564069
## 23       1        2 0.8476448
## 24       1        2 0.8130912
## 25       1        2 0.8657953
## 26       1        2 0.8534098
## 27       1        2 0.5144775
## 28       1        2 0.8596822
## 29       1        2 0.8324527
## 30       1        2 0.8414148
## 31       1        2 0.8576793
## 32       1        2 0.8381600
## 33       1        2 0.8594206
## 34       1        2 0.7161539
Rata-rata nilai silhouette tiap cluster
cluster Mean Silhouette
1 0.8018480
2 0.5090546

Dari hasil nilai Silhouette untuk tiap objek (Si), sebagian besar memiliki nili kecocokan diatas 50%, namun terdapat satu provinsi, yakni Sumatera Utara yang memiliki nilai kecocokan rendah di angka 7% yang mengindikasikan bahwa Provinsi Sumatera Utara bisa berada di antara cluster 1 dan cluster 2. Secara rata-rata, nilai kecocokan untuk cluster 1 berada di angka 80% dan cluster 2 di angka 50,9%. Hal tersebut mengindikasikan bahwa antar objek dalam cluster memiliki kemiripan karakteristik yang cukup tinggi.

BAB V

PENUTUP

5.1 Kesimpulan

Dari hasil analisis disimpulkan bahwa jumlah cluster optimal untuk mengelompokkan Provinsi berdasarkan fasilitas kesehatan adalah 2, dimana cluster 1 adalah Provinsi dengan kategori jumlah fasilitas kesehatan yang sedikit dan cluster 2 adalah Provinsi dengan kategori jumlah fasilitas kesehatan yang lebih banyak. Banyak sedikitnya jumlah fasilitas kesehatan bukan semata-mata dipengaruhi karena kondisi geografis daerah perkotaan padat dan daerah terpencil, Analisis ini dilakukan dengan tujuan untuk mengklasifikasikan Provinsi berdasarkan dengan jumlah fasilitas kesehatan yang tersedia.

5.2 Saran

Berdasarkan hasil penelitian, disarankan agar pemerintah Provinsi, khususnya wilayah pada cluster 1, mengevaluasi faktor rendahnya jumlah fasilitas kesehatan, seperti kondisi geografis, kepadatan penduduk, dan anggaran. Intervensi yang tepat dapat meningkatkan akses dan ketersediaan fasilitas kesehatan. Penelitian selanjutnya sebaiknya menggunakan metode klasterisasi yang mempertimbangkan aspek spasial dan menambahkan variabel tambahan seperti luas wilayah, anggaran, kualitas layanan, dan indikator lain agar cluster yang terbentuk lebih lengkap dan representatif.

DAFTAR PUSTAKA

Awaliyah, L., Rahaningsih, N., & Dana, R., D. (2024). Implementasi Algoritma K-Means Dalam Analisis Cluster Korban Kekerasan di Provinsi Jawa Barat. JATI (Jurnal Mahasiswa Teknik Informatika), 8(1), 188-195.

Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2010). Multivariate Data Analysis (7th ed.). Pearson

Sadali, M. I. Dominasi kota sebagai konsentrasi fasilitas kesehatan (Jurnal Region, Universitas Sebelas Maret).

Sangga, V. A. P. (2018). Perbandingan algoritma K-Means dan algoritma K-Medoids dalam pengelompokan komoditas peternakan di provinsi Jawa Tengah tahun 2015.