BAB I

PENDAHULUAN

1.1 Latar Belakang Kasus

Sarana kesehatan yang kurang merata masih menjadi masalah penting di Indonesia. Dari data 34 provinsi, terlihat bahwa jumlah rumah sakit, rumah sakit bersalin, poliklinik, puskesmas, puskesmas pembantu, dan apotek masih sangat bervariasi antar provinsi. Provinsi di Pulau Jawa dan Sumatera rata-rata memiliki lebih banyak sarana kesehatan, sedangkan provinsi di wilayah timur seperti Nusa Tenggara Timur, Papua, dan Maluku jumlahnya masih sedikit. Ketimpangan ini membuat masyarakat di beberapa daerah sulit mengakses layanan kesehatan yang memadai.

Selain jumlah, jenis sarana kesehatan antar provinsi juga bervariasi, sehingga analisis sederhana per provinsi atau rata-rata nasional tidak cukup untuk menangkap pola penyebaran dan ketimpangan yang ada. Hal ini menimbulkan kebutuhan untuk melakukan pengelompokan provinsi berdasarkan kemiripan karakteristik sarana kesehatan agar pemerintah dapat merumuskan kebijakan dan strategi yang lebih tepat sasaran.

1.2 Data yang Digunakan

## # A tibble: 34 × 7
##    Provinsi            `Rumah Sakit` `Rumah Sakit Bersalin` Poliklinik Puskesmas
##    <chr>                       <dbl>                  <dbl>      <dbl>     <dbl>
##  1 ACEH                           64                    225        258       395
##  2 SUMATERA UTARA                199                    441        800       661
##  3 SUMATERA BARAT                 54                    139        127       294
##  4 RIAU                           55                    207        329       272
##  5 JAMBI                          36                    151        103       231
##  6 SUMATERA SELATAN               65                    248        195       403
##  7 BENGKULU                       20                      5         49       190
##  8 LAMPUNG                        53                    238        307       350
##  9 KEP. BANGKA BELITU…            21                     25         25        63
## 10 KEP. RIAU                      23                     35         76        88
## # ℹ 24 more rows
## # ℹ 2 more variables: `Puskesmas Pembantu` <dbl>, Apotek <dbl>

1.3 Latar Belakang Metode

K-Means merupakan salah satu metode analisis cluster non-hierarki yang sering digunakan dalam statistik maupun data mining. Metode ini bekerja dengan cara membagi sekumpulan data ke dalam beberapa kelompok atau cluster berdasarkan tingkat kemiripan karakteristik antar objek. Tujuan utama K-Means adalah meminimalkan variasi di dalam cluster dan memaksimalkan perbedaan antarcluster, sehingga setiap objek dalam satu cluster memiliki sifat yang mirip, sementara antarcluster memiliki karakteristik yang berbeda.

K-Means dipilih karena memiliki proses komputasi yang sederhana, cepat, dan efektif untuk dataset berukuran besar. Metode ini bekerja dengan menentukan jumlah cluster terlebih dahulu, kemudian secara iteratif memperbarui posisi centroid dan pembagian anggota cluster hingga diperoleh pembentukan cluster yang stabil. Kelebihan K-Means adalah kemampuannya memberikan pemisahan kelompok yang jelas dan mudah diinterpretasikan.

K-Means digunakan untuk mengelompokkan provinsi berdasarkan jumlah sarana kesehatan. Pendekatan ini memungkinkan untuk melihat pola kemiripan antarprovinsi secara objektif, mengidentifikasi kelompok provinsi dengan tingkat ketersediaan layanan kesehatan yang rendah, sedang, hingga tinggi, serta memberikan gambaran yang lebih jelas mengenai ketimpangan distribusi sarana kesehatan di Indonesia. Dengan demikian, penggunaan metode K-Means memberikan landasan yang kuat untuk memahami struktur data dan mendukung perumusan rekomendasi kebijakan yang tepat sasaran.

1.4 Tinjauan Pustaka

1. Ketimpangan Sarana Kesehatan

Ketimpangan ketersediaan sarana kesehatan antarprovinsi disebabkan oleh beberapa hal. Antara lain perbedaan demografi, tingkat urbanisasi, kapasitas ekonomi/PDRB, konsentrasi pusat layanan dan institusi pendidikan kesehatan, serta hambatan geografis yang menaikkan biaya pembangunan sarana kesehatan. Ketimpangan infrastruktur seperti layanan kesehatan juga berkaitan erat dengan ketimpangan dan kemampuan ekonomi masing-masing provinsi. Wilayah yang memiliki ekonomi kuat, aktivitas industri dan perdagangan yang berkembang, serta pendapatan daerah yang tinggi cenderung lebih mampu menarik investasi sektor kesehatan. Akibatnya, daerah dengan penduduk padat dan secara ekonomi maju biasanya memiliki fasilitas yang lebih banyak, lebih lengkap, dan lebih mudah diakses dibandingkan wilayah dengan sumber daya ekonomi terbatas.

2. Eksplorasi Data

a. Statistika Deskriptif

Menurut Walpole (2012), statistika deskriptif adalah prosedur untuk mengorganisasi dan merangkum informasi numerik karena data mentah tidak dapat memberikan gambaran yang jelas tanpa pengolahan. Beberapa tujuan dari statistika deskriptif antara lain:

Memberikan gambaran umum data
Mengidentifikasi pola atau kecenderungan
Merangkum data dalam ukuran numerik
Menyajikan data dalam bentuk tabel atau grafik untuk memudahkan interpretasi.

Statistika deskriptif mencakup

Rata-rata (Mean)

\[\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i\]
Median

\[ \text{Median} = \begin{cases} x_{\left(\frac{n+1}{2}\right)}, & \text{jika } n \text{ ganjil} \\ \frac{x_{\left(\frac{n}{2}\right)} + x_{\left(\frac{n}{2}+1\right)}}{2}, & \text{jika } n \text{ genap} \end{cases} \]
Modus

Modus merupakan nilai yang paling sering muncul.
Range

\[ \text{Range} = x_{\text{maks}} - x_{\text{min}} \]
Kuartil

\[ Q_1 = x_{\left(\frac{n+1}{4}\right)} \]

\[ Q_2 = x_{\left(\frac{2(n+1)}{4}\right)} \]

\[ Q_3 = x_{\left(\frac{3(n+1)}{4}\right)} \]

3. Analisis Cluster

Analisis klaster adalah salah satu teknik analisis multivariat yang bertujuan untuk mengelompokkan objek berdasarkan tingkat kemiripan karakteristiknya. Metode ini bersifat eksploratif dan tidak menggunakan variabel dependen, sehingga seluruh variabel dianalisis secara bersama-sama untuk menemukan pola alami dalam data (Hair et al., 2010). Objek yang berada dalam satu cluster diharapkan memiliki kesamaan yang tinggi, sementara objek antarklaster diharapkan berbeda secara signifikan (Johnson & Wichern, 2007). Penggunaan analisis klaster umum diterapkan untuk segmentasi wilayah, klasifikasi kesehatan, perilaku masyarakat, maupun pengelompokan berdasarkan indikator sosial ekonomi. Metode yang paling sering digunakan adalah K-Means, yaitu teknik non-hierarki yang membagi objek ke dalam k cluster berdasarkan kedekatan dengan centroid (Everitt et al., 2011).

4. Uji Kaiser-Meyer-Olkin

Kaiser-Meyer-Olkin (KMO) merupakan salah satu ukuran kelayakan sampel yang penting untuk dilakukan sebelum menerapkan analisis faktor. Ukuran ini menghitung proporsi varians antar variabel yang dapat dijelaskan oleh faktor umum, sehingga memberikan indikasi apakah pola korelasi antar variabel cukup kuat untuk diekstraksi menjadi faktor yang bermakna (Hair et al., 2010; Kaiser, 1974).

Nilai KMO berada pada rentang 0 hingga 1 dan diinterpretasikan sebagai berikut (Kaiser, 1974; Hair et al., 2010):

Nilai Uji KMO	Interpretasi
0.90-1.00	Sangat Baik
0.80-0.89	Baik
0.70-0.79	Cukup
0.60-0.69	Kurang
0.50-0.59	Sangat Kurang
< 0.50	Tidak Layan

Rumus Uji KMO

\[ KMO = \frac{\sum \sum r_{ij}^2}{\sum \sum r_{ij}^2 + \sum \sum p_{ij}^2} \]

dengan:

\(r_{ij}\) : korelasi antar variabel \(i\) dan \(j\)
\(p_{ij}\) : korelasi parsial antar variabel \(i\) dan \(j\)

4. Analisis Cluster K-Means

K-Means adalah salah satu metode analisis cluster non-hierarki dengan cara menyusun pusat massa atau centroid dari sekumpulan data berdimensi dan membaginya ke dalam k klaster sehingga objek dalam satu klaster memiliki tingkat kemiripan yang tinggi, sedangkan kemiripannya dengan objek pada klaster lain rendah. Kemiripan ini diukur melalui kedekatan setiap objek terhadap nilai rata-rata atau mean pada klaster yang bersangkutan karena K-Means secara matematis mengoptimalkan withincluster sum of squares yang merupakan jumlah kuadrat jarak antara objek dan centroid clusternya. Algoritma ini bekerja secara iteratif dengan dua langkah utama yaitu penugasan objek ke centroid terdekat dan pembaruan centroid berdasarkan rata-rata anggota klaster sampai proses mencapai kondisi konvergen. Sebagai metode partitioning, K-Means efektif ketika klaster memiliki bentuk yang relatif bulat dan ukuran yang serupa, tetapi hasilnya sensitif terhadap inisialisasi centroid, skala variabel, serta struktur alami data.

5. Menentukan Jumlah k Optimal

a. Metode Elbow

Metode Elbow adalah salah satu metode yang umum digunakan untuk menentukan jumlah cluster (k) optimal dalam K‑Means. Prinsipnya adalah menghitung Within-Cluster Sum of Squares (WCSS) atau total jarak kuadrat antar data dalam cluster untuk berbagai nilai k, kemudian memplot WCSS terhadap k. Titik “siku” pada grafik, di mana penurunan WCSS mulai melambat, dianggap sebagai jumlah cluster yang optimal karena penambahan cluster setelah titik tersebut memberikan perbaikan yang relatif kecil.

b. Metode Silhouette

Metode Silhouette adalah salah satu metode untuk mengevaluasi kualitas cluster dengan mengukur seberapa baik objek ditempatkan dalam cluster masing-masing dan seberapa terpisah cluster tersebut. Metode ini mempertimbangkan dua aspek utama, yaitu cohesion (kekompakan cluster) dan separation (jarak antar cluster). Nilai Silhouette yang tinggi menunjukkan bahwa objek berada dekat dengan anggota cluster sendiri dan jauh dari cluster lain, sehingga cluster dianggap baik. Rata-rata silhouette dari seluruh data dapat digunakan untuk membandingkan beberapa pilihan jumlah cluster (k), di mana nilai rata-rata tertinggi menandakan jumlah cluster optimal. Rumus dari metode Silhouette adalah sebagai berikut:

\[ S(i) = \frac{b(i) - a(i)}{\max \{a(i), b(i)\}} \]

dengan:

\(a(i)\) : rata-rata jarak antara objek ke-\(i\) dengan semua objek lain dalam cluster yang sama
\(b(i)\) : nilai minimum dari rata-rata jarak antara objek ke-\(i\) dengan objek-objek di cluster lain
\(S(i)\) : nilai silhouette berikisar antara -1 sampai 1
- \(s(i) \approx 1\) : objek berada dalam cluster yang tepat.
- \(s(i) \approx 0\) : objek berada di batas antar cluster.
- \(s(i) < 0\) : objek kemungkinan salah cluster.

c. Validasi Internal

Validitas internal digunakan untuk menilai apakah hasil pengelompokan cluster yang terbentuk mampu menjelaskan dan mewakili populasi secara umum. Dalam konteks clustering, validitas sangat penting karena dapat membantu memecahkan permasalahan utama, yaitu menentukan jumlah cluster yang optimum. Untuk mengevaluasi kualitas cluster secara internal, terdapat beberapa indeks validitas yang umum digunakan, antara lain Indeks Connectivity, Indeks Silhouette, dan Indeks Dunn.

Indeks Conectivity

Indeks Connectivity merupakan ukuran validasi yang menilai seberapa baik keterkaitan atau kontinuitas antar titik data dalam suatu cluster. Semakin kecil nilai Indeks Connectivity, kualitas clustering dianggap semakin baik karena kontinuitas antar anggota cluster lebih terjaga dengan baik.

Rumus dari Indeks Connectivity adalah sebagai berikut:

\[ Conn(C) = \sum_{i=1}^{N} \sum_{j=1}^{L} x_{i, nni(j)} \]

dengan:
- N : Jumlah total pengamatan (observasi).
- L : Banyaknya cluster.
- nni(j) : Tetangga terdekat ke-\(j\) dari pengamatan \(i\).
Indeks Silhouette

Indeks Silhouette digunakan untuk menilai seberapa tepat suatu observasi ditempatkan dalam cluster serta untuk memperkirakan jarak rata-rata antar cluster. Nilai Silhouette, \(S_i\), yang mendekati 1 menunjukkan bahwa observasi berada dalam cluster yang sesuai, sedangkan nilai mendekati 0 menandakan observasi berada di perbatasan antara dua cluster. Nilai negatif dari \(S_i\) menunjukkan kemungkinan bahwa observasi tersebut salah ditempatkan dalam cluster.

Rumus dari indeks Silhouette adalah sebagai berikut:

\[ S(i) = \frac{b(i) - a(i)}{\max \{a(i), b(i)\}} \]

dengan:
- \(S(i)\) : nilai silhouette berikisar antara -1 sampai 1
- \(a(i)\) : rata-rata jarak antara objek ke-\(i\) dengan semua objek lain dalam cluster yang sama
- \(b(i)\) : nilai minimum dari rata-rata jarak antara objek ke-\(i\) dengan objek-objek di cluster lain
Indeks Dunn

Indeks Dunn mengukur kualitas clustering dengan membandingkan rasio antara jarak minimum antar observasi yang berada di cluster berbeda dengan jarak maksimum antar observasi dalam setiap cluster. Semakin tinggi nilai Indeks Dunn, semakin baik kualitas clustering, karena cluster lebih terpisah satu sama lain dan anggota cluster lebih kompak.

Rumus dari indeks Silhouette adalah sebagai berikut:

\[ C = \frac{d_{\min}}{d_{\max}} \]

dengan:
- \(d_{\min}\): Jarak terkecil di antara observasi yang berasal dari cluster yang berbeda.
- \(d_{\max}\): Jarak terbesar antar observasi di dalam masing-masing cluster.

1.5 Tujuan

Mengelompokkan provinsi berdasarkan kemiripan jumlah dan jenis sarana kesehatan
Menyajikan visualisasi pengelompokkan provinsi ke dalam plot dua dimensi
Menentukan provinsi yang termasuk kelompok rendah, sedang, dan tinggi dalam ketersediaan sarana kesehatan

BAB II

METODE PENELITIAN

**2.1 Source Code dan Penjelasan**

Source Code	Penjelasan
`library(readxl)` `library(clValid)` `library(factoextra)` `library(psych)`	loading library yang dubutuhkan, yaitu `readxl` untuk membaca file excel, `clValid` untuk validasi internal cluster, `factoextra` untuk visualisasi plot hasil clustering, dan `psych` untuk uji sampel representatif
`data <- read_excel("C:/Users/Dimas Raihan/Downloads/` `DATA_SARANA_KESEHATAN.xlsx")`	Membaca file Excel yang berisi data sarana kesehatan untuk 34 provinsi.
`data1 <- as.data.frame(data[, c("Rumah Sakit", "Rumah Sakit Bersalin",` `"Poliklinik", "Puskesmas", "Puskesmas Pembantu", "Apotek")])` `print(data1)`	Mengambil 6 variabel sarana kesehatan dan mengubahnya menjadi data frame baru yang digunakan untuk analisis clustering.
`summary(data)`	Melakukan analisis statistika deskriptif. yaitu nilai minimum, Q1, median, mean, Q3, dan nilai maksimum.
`kmo_result <- KMO(data1)` `kmo_result`	Melakukan uji sampel representatif dengan menggunakan Uji KMO
`fviz_nbclust(data1, kmeans, method = "wss")` `+ labs(subtitle = "Metode Elbow untuk Menentukan Jumlah Cluster Optimal")`	Membuat grafik Elbow untuk menentukan jumlah cluster optimal berdasarkan total Within-Cluster Sum of Squares (WSS).
`fviz_nbclust(data1, kmeans, method = "silhouette")` `+ labs(subtitle = "Metode Silhouette untuk Menentukan Jumlah Cluster Optimal")`	Membuat grafik Silhouette untuk menentukan jumlah cluster optimal berdasarkan nilai Silhouette.
`inval <- clValid(obj = data1,` `nClust = 2:6,` `clMethods = "kmeans",` `validation = "internal") summary(inval)`	Melakukan validasi internal (Connectivity, Dunn Index, Silhouette) untuk menentukan jumlah cluster optimal dari 2 hingga 6 cluster. lalu menampilkan hasil evaluasi jumlah cluster terbaik berdasarkan metode validasi internal.
`k_optimal <- 2`	Menetapkan jumlah cluster optimal berdasarkan hasil validasi internal.
`kmeans_res <- kmeans(data1,` `centers = k_optimal, nstart = 25)`	Menjalankan algoritma K-Means dengan jumlah cluster = 2 dan 25 permulaan acak.
`print(kmeans_res)`	Menampilkan output hasil clustering.
`fviz_cluster(kmeans_res,` `data = data1,` `ellipse.type = "convex",` `star.plot = TRUE,` `repel = TRUE, ggtheme = theme_minimal(),` `main = "Visualisasi K-Means Clustering")`	Membuat plot visual cluster dengan batas convex beserta garis dari titik plot ke centroid setiap cluster.

BAB III

Hasil dan Pembahasan

3.1 Loading Library

library(readxl)
library(clValid)
library(factoextra)
library(psych)

3.2 Input Data

data <- read_excel("C:/Users/Dimas Raihan/Downloads/DATA_SARANA_KESEHATAN.xlsx")

data1 <- as.data.frame(data[, c("Rumah Sakit", "Rumah Sakit Bersalin", "Poliklinik", "Puskesmas", "Puskesmas Pembantu", "Apotek")])
print(data1)

##    Rumah Sakit Rumah Sakit Bersalin Poliklinik Puskesmas Puskesmas Pembantu
## 1           64                  225        258       395                971
## 2          199                  441        800       661               1887
## 3           54                  139        127       294                721
## 4           55                  207        329       272               1033
## 5           36                  151        103       231                654
## 6           65                  248        195       403                935
## 7           20                    5         49       190                456
## 8           53                  238        307       350                936
## 9           21                   25         25        63                148
## 10          23                   35         76        88                243
## 11         119                  156        230       257                  3
## 12         292                 1245       1670      1170               1800
## 13         274                  871       1232       921               1832
## 14          61                  102        158       126                300
## 15         317                 1183       1101      1036               2338
## 16          87                  280        467       267                346
## 17          49                   61         71       124                495
## 18          31                   20         72       173                550
## 19          48                   42        108       414               1030
## 20          39                   95         98       264                836
## 21          19                   63         95       221               1101
## 22          34                  126        131       253                464
## 23          39                   56        125       199                727
## 24          11                    4         15        59                179
## 25          46                   77         68       217                540
## 26          29                   58         60       224                698
## 27          75                  121        180       493               1394
## 28          31                   56         40       283                557
## 29          14                    2         42        96                250
## 30          10                    8         16       100                340
## 31          27                   20         31       235                481
## 32          20                   11         28       142                277
## 33          16                   10         29       177                495
## 34          41                   26        115       422               1146
##    Apotek
## 1     346
## 2     740
## 3     257
## 4     351
## 5     211
## 6     244
## 7     141
## 8     356
## 9      73
## 10     90
## 11    242
## 12   1758
## 13   2068
## 14    226
## 15   1842
## 16    402
## 17    214
## 18    237
## 19    172
## 20    123
## 21     85
## 22    162
## 23    196
## 24     49
## 25    170
## 26    181
## 27    490
## 28    189
## 29     97
## 30     47
## 31     66
## 32     76
## 33     79
## 34    125

3.3 Eksplorasi Data

1. Statistika Deskriptif

# Statistika Deskriptif
summary(data)

##    Provinsi          Rumah Sakit     Rumah Sakit Bersalin   Poliklinik     
##  Length:34          Min.   : 10.00   Min.   :   2.00      Min.   :  15.00  
##  Class :character   1st Qu.: 24.00   1st Qu.:  25.25      1st Qu.:  51.75  
##  Mode  :character   Median : 40.00   Median :  70.00      Median : 105.50  
##                     Mean   : 68.21   Mean   : 188.44      Mean   : 248.56  
##                     3rd Qu.: 63.25   3rd Qu.: 194.25      3rd Qu.: 221.25  
##                     Max.   :317.00   Max.   :1245.00      Max.   :1670.00  
##    Puskesmas      Puskesmas Pembantu     Apotek      
##  Min.   :  59.0   Min.   :   3.0     Min.   :  47.0  
##  1st Qu.: 174.0   1st Qu.: 373.5     1st Qu.: 103.5  
##  Median : 244.0   Median : 605.5     Median : 192.5  
##  Mean   : 318.2   Mean   : 769.5     Mean   : 356.0  
##  3rd Qu.: 383.8   3rd Qu.:1015.2     3rd Qu.: 323.8  
##  Max.   :1170.0   Max.   :2338.0     Max.   :2068.0

a. Rumah Sakit

Distibusi jumlah Rumah Sakit berada pada rentang 10 hingga 317 unit. Nilai rata-rata sebesar 68,21 dan median sebesar 40. Nilai ini menunjukkan ketimpangan besar antarprovinsi pada distribusi jumlah Rumah Sakit.

b. Rumah Sakit Bersalin

Distribusi jumlah Rumah Sakit Bersalin berada pada rentang 2 hingga 1245 unit. Nilai rata-rata sebesar 188,44 tetapi median sebesar 70. Nilai ini menunjukkan ketimpangan besar antarprovinsi pada distribusi jumlah Rumah Sakit Bersalin.

c. Poliklinik

Distribusi jumlah Poliklinik berada pada rentang 15 hingga 1670 unit. Dengan rata-rata sebesar 248,56 dan median sebesar 105,5. Nilai ini menunjukkan ketimpangan besar antarprovinsi pada distribusi jumlah Poliklinik.

d. Puskesmas

Distribusi jumlah Puskesmas berada pada rentang 59 hingga 1170 unit, dengan rata-rata sebesar 318,2 dan median sebesar 244. Nilai ini menunjukkan ketimpangan besar antarprovinsi pada distribusi jumlah Puskesmas.

e. Puskesmas Pembantu

Distribusi jumlah Puskesmas Pembantu berada pada rentang 3 hingga 2338 unit. Rata-rata sebesar 769,5 dan median sebesar 605,5. Nilai ini menunjukkan ketimpangan besar antarprovinsi pada distribusi jumlah Puskesmas Pembantu.

f. Apotek

Distribusi jumlah Apotek menunjukkan rentang jumlah antara 47 hingga 2068 unit. Rata-rata sebesar 356 Median sebesar 192,5. Nilai ini menunjukkan ketimpangan besar antarprovinsi pada distribusi jumlah Apotek.

3.4 Uji Asumsi

1. Uji Sampel Representatif

# Uji KMO
kmo_result <- KMO(data1)
kmo_result

## Kaiser-Meyer-Olkin factor adequacy
## Call: KMO(r = data1)
## Overall MSA =  0.9
## MSA for each item = 
##          Rumah Sakit Rumah Sakit Bersalin           Poliklinik 
##                 0.94                 0.91                 0.92 
##            Puskesmas   Puskesmas Pembantu               Apotek 
##                 0.86                 0.84                 0.94

Sampel representatif adalah keadaan di mana sampel yang diambil dapat mewakili populasi yang ada. Sampel yang dikatakan representatif adalah ketika nilai Uji KMO berada pada rentang 0.5 hingga 1. Berdasarkan hasil uji sampel representatif menggunakan Uji KMO, didapatkan nilai overall MSA sebesar 0.9 dan nilai MSA per variabel lebih dari 0.8. Maka dapat disimpulkan bahwa sampel telah mewakili populasi.

3.5 Menentukan Jumlah Cluster Optimal

1. Metode Elbow

# Metode Elbow
fviz_nbclust(data1, kmeans, method = "wss") +
  labs(subtitle = "Metode Elbow untuk Menentukan Jumlah Cluster Optimal")

Dengan Metode Elbow, dapat disimpulkan bahwa jumlah cluster optimal adalah k = 2 atau sebanyak 2 cluster.

2. Metode Silhouette

# Metode Silhouette
fviz_nbclust(data1, kmeans, method = "silhouette") +
  labs(subtitle = "Metode Silhouette untuk Menentukan Jumlah Cluster Optimal")

Dengan Metode Silhouette, dapat disimpulkan bahwa jumlah cluster optimal adalah k = 2 atau sebanyak 2 cluster.

3. Validasi Internal

# Validasi Internal
inval <- clValid(obj = data1,
                 nClust = 2:6, 
                 clMethods = "kmeans",
                 validation = "internal")
summary(inval)

## 
## Clustering Methods:
##  kmeans 
## 
## Cluster sizes:
##  2 3 4 5 6 
## 
## Validation Measures:
##                            2       3       4       5       6
##                                                             
## kmeans Connectivity   6.0048  9.2698 11.7698 19.2889 21.2889
##        Dunn           0.5549  0.3934  0.3934  0.0980  0.0980
##        Silhouette     0.7674  0.5933  0.5447  0.4228  0.4159
## 
## Optimal Scores:
## 
##              Score  Method Clusters
## Connectivity 6.0048 kmeans 2       
## Dunn         0.5549 kmeans 2       
## Silhouette   0.7674 kmeans 2

Berdasarkan hasil perhitungan menggunakan indeks Connectivity, Dunn, dan Silhouette, diperoleh bahwa jumlah kluster optimal adalah sebanyak 2 cluster.

Baik menggunakan Metode Elbow, Metode Silhouette, dan validasi internal menggunakan Indeks Connectivity, Indeks Dunn, dan Indeks Silhouette, semua metode menghasilkan jumlah cluster optimal sebesar 2 cluster. Maka jumlah cluster yang akan digunakan untuk clustering adalah sebanyak 2 cluster.

3.6 Hasil Clustering

# K-Means Clustering
k_optimal <- 2

set.seed(123)
kmeans_res <- kmeans(data1, centers = k_optimal, nstart = 25)
print(kmeans_res)

## K-means clustering with 2 clusters of sizes 30, 4
## 
## Cluster means:
##   Rumah Sakit Rumah Sakit Bersalin Poliklinik Puskesmas Puskesmas Pembantu
## 1    41.23333                 88.9     121.60     234.4             610.20
## 2   270.50000                935.0    1200.75     947.0            1964.25
##   Apotek
## 1  189.9
## 2 1602.0
## 
## Clustering vector:
##  [1] 1 2 1 1 1 1 1 1 1 1 1 2 2 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
## 
## Within cluster sum of squares by cluster:
## [1] 4691012 2177591
##  (between_SS / total_SS =  76.3 %)
## 
## Available components:
## 
## [1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
## [6] "betweenss"    "size"         "iter"         "ifault"

1. Anggota Cluster

Berdasarkan hasil analisis menggunakan metode K-Means Clustering dengan jumlah klaster optimal sebesar 2 klaster, diperoleh hasil Cluster 1 dengan jumlah anggota sebanyak 30 provinsi, dan Cluster 2 dengan jumlah anggota sebanyak 4 Provinsi.

2. Rata-rata Cluster

Rata-rata cluster menunjukkan perbedaan yang sangat jelas antara kedua cluster. Cluster 1 memiliki rata-rata jumlah sarana kesehatan yang rendah hingga sedang pada semua jenis sarana kesehatan. Sebaliknya, Cluster 2 memiliki rata-rata yang jauh lebih tinggi pada seluruh jenis sarana kesehatan. Perbedaan rata-rata ini mengindikasikan adanya ketimpangan sarana kesehatan antarprovinsi di Indonesia.

3. Within-Cluster Sum of Squares

Nilai within-cluster sum of squares menunjukkan seberapa rapat atau homogen anggota dalam masing-masing cluster. Pada hasil clustering, Cluster 1 memiliki nilai within-SS yang lebih besar dibanding Cluster 2 karena jumlah anggotanya jauh lebih banyak, tetapi tetap menggambarkan bahwa antarprovinsi di dalam setiap cluster memiliki kemiripan karakteristik sarana kesehatan. Rasio between_SS/total_SS sebesar 76,3% menunjukkan bahwa sebagian besar variasi data dapat dijelaskan oleh pemisahan antarcluster. Nilai rasio yang cukup tinggi tersebut mengindikasikan bahwa pemisahan dua cluster cukup efektif dalam memisahkan provinsi berdasarkan tingkat ketersediaan jenis sarana kesehatan.

3.7 Visualisasi Hasil Clustering

# Visualisasi Plot Cluster
fviz_cluster(kmeans_res, data = data1,
             ellipse.type = "convex",
             star.plot = TRUE,
             repel = TRUE,
             ggtheme = theme_minimal(),
             main = "Visualisasi K-Means Clustering")

Cluster 1 (merah)

Titik-titik di dalam cluster ini rata-rata saling berdekaran. Hal ini menandakan bahwa provinsi yang ada di Cluster 1 memiliki karakteristik sarana kesehatan yang mirip. Dengan kata lain, variasi antar provinsi relatif kecil.
Sebagian besar provinsi berada pada cluster ini. Sebanyak 30 provinsi berada pada Cluster 1. Provinsi yang berada pada Cluster 1 memiliki jumlah dan jenis sarana kesehatan yang masuk ke dalam golongan rendah hingga sedang.

Cluster 2 (biru)

Titik-titik di dalam cluster ini lebih tersebar dibanding Cluster 1. Hal ini menandakan bahwa provinsi yang ada di Cluster 2 memiliki karakteristik sarana kesehatan yang lebih bervariasi.
Hanya sebagian provinsi yang berada pada cluster ini. Sebanyak 4 provinsi berada pada Cluster 2. Provinsi yang berada pada Cluster 2 memiliki jumlah dan jenis sarana kesehatan yang masuk ke dalam golongan tinggi.

Jarak yang lebar antara kedua cluster pada visualisasi mengindikasikan bahwa terdapat perbedaan yang signifikan antara kelompok provinsi dengan fasilitas kesehatan yang rendah atau terbatas dan kelompok dengan fasilitas kesehatan yang tinggi atau sangat lengkap. Pola ini menunjukkan bahwa pembentukan dua cluster sudah tepat dan mampu menggambarkan ketimpangan distribusi sarana kesehatan antarprovinsi di Indonesia secara jelas, sehingga dapat menjadi dasar bagi analisis lanjutan maupun perumusan kebijakan yang lebih terarah.

3.8 Tabel Hasil Clustering

Cluster	Provinsi
1	Aceh, Sumatera Barat, Riau, Jambi, Sumatera Selatan, Bengkulu, Lampung, Kep. Bangka Belitung, Kep. Riau, DKI Jakarta, DI Yogyakarta, Banten, Bali, Nusa Tenggara Barat, Nusa Tenggara Timur, Kalimantan Barat, Kalimantan Tengah, Kalimantan Selatan, Kalimantan Timur, Kalimantan Utara, Sulawesi Utara, Sulawesi Tengah, Sulawesi Selatan, Sulawesi Tenggara, Gorontalo, Sulawesi Barat, Maluku, Maluku Utara, Papua Barat, Papua
2	Sumatera Utara, Jawa Barat, Jawa Tengah, Jawa Timur

Aceh, Sumatera Barat, Riau, Jambi, Sumatera Selatan, Bengkulu, Lampung, Kep. Bangka Belitung, Kep. Riau, DKI Jakarta, DI Yogyakarta, Banten, Bali, Nusa Tenggara Barat, Nusa Tenggara Timur, Kalimantan Barat, Kalimantan Tengah, Kalimantan Selatan, Kalimantan Timur, Kalimantan Utara, Sulawesi Utara, Sulawesi Tengah, Sulawesi Selatan, Sulawesi Tenggara, Gorontalo, Sulawesi Barat, Maluku, Maluku Utara, Papua Barat, Papua

Sumatera Utara, Jawa Barat, Jawa Tengah, Jawa Timur

Hasil pengelompokan menunjukkan adanya perbedaan yang signifikan antara kedua cluster sarana kesehatan di Indonesia. Cluster 1 diisi oleh sebagian besar provinsi dengan jumlah fasilitas kesehatan yang relatif rendah hingga sedang, sementara Cluster 2 terdiri dari empat provinsi besar yang memiliki fasilitas kesehatan jauh lebih banyak dan beragam. Ketimpangan ini tidak muncul secara kebetulan, tetapi berkaitan langsung dengan kondisi demografis, ekonomi, geografis, dan kapasitas pembangunan yang berbeda di tiap wilayah.

Ketidakseimbangan dalam jumlah sarana kesehatan tersebut menunjukkan bahwaa pembangunan layanan kesehatan di Indonesia masih dipengaruhi oleh karakteristik masing-masing provinsi. Beberapa faktor utama yang dapat menjelaskan mengapa provinsi tertentu memiliki fasilitas kesehatan yang sangat banyak, sedangkan sebagian besar lainnya masih tertinggal.

Provinsi yang masuk ke dalam Cluster 2 seperti Jawa Barat, Jawa Tengah, Jawa Timur, dan Sumatera Utara merupakan wilayah dengan jumlah penduduk terbesar di Indonesia. Semakin banyak penduduk, semakin besar pula kebutuhan terhadap rumah sakit, puskesmas, klinik, dan apotek. Kebutuhan ini kemudian mendorong tumbuhnya fasilitas kesehatan dalam jumlah yang sangat besar dibandingkan provinsi lain.

Provinsi yang masuk ke dalam Cluster 1 cenderung memiliki jumlah sarana kesehatan yang rendah hingga sedang karena dipengaruhi oleh beberapa faktor, seperti jumlah penduduk yang relatif lebih kecil sehingga kebutuhan fasilitas kesehatan tidak sebesar provinsi berpenduduk besar. Selain itu, tingkat urbanisasi yang rendah membuat pertumbuhan fasilitas kesehatan berjalan lambat, terutama di wilayah yang masih dominan perdesaan. Faktor geografis juga memperkuat ketimpangan ini, khususnya pada provinsi kepulauan, pegunungan, atau wilayah dengan akses transportasi yang terbatas sehingga pembangunan fasilitas kesehatan menjadi lebih mahal dan terhambat. Keseluruhan kondisi tersebut menyebabkan provinsi dalam Cluster 1 memiliki karakteristik sarana kesehatan yang berada pada kategori rendah hingga sedang dibandingkan provinsi di cluster lainnya.

BAB IV

KESIMPULAN DAN SARAN

4.1 Kesimpulan

Analisis klaster menggunakan metode K-Means berhasil mengelompokkan provinsi-provinsi di Indonesia berdasarkan kemiripan jumlah dan jenis sarana kesehatan yang dimiliki. Metode ini menghasilkan dua klaster utama, yaitu Klaster 1 yang terdiri atas 30 provinsi dan Klaster 2 yang terdiri atas 4 provinsi.
Visualisasi plot dua dimensi yang dihasilkan dari analisis K-Means membagi provinsi menjadi dua cluster. Pada plot tersebut, provinsi dengan fasilitas kesehatan rendah hingga sedang berada dalam satu kelompok yang relatif rapat, sementara provinsi dengan fasilitas kesehatan tinggi membentuk kelompok terpisah yang relatif berjauhan. Pola persebaran ini membuktikan bahwa metode K-Means mampu mengelompokkan provinsi serta memberikan gambaran mengenai ketimpangan distribusi sarana kesehatan antarprovinsi.
Hasil analisis klaster menggunakan metode K-Means, provinsi-provinsi di Indonesia berhasil dikelompokkan ke dalam dua cluster utama berdasarkan kemiripan jumlah dan jenis sarana kesehatan. Klaster 1 yang berisi 30 provinsi menunjukkan karakteristik sarana kesehatan yang relatif seragam pada tingkat rendah hingga sedang, terlihat dari titik-titik yang saling berdekatan. Sementara itu, Klaster 2 yang berisi 4 provinsi memiliki jumlah dan jenis sarana kesehatan yang jauh lebih tinggi dan lebih bervariasi, namun tetap berbeda secara signifikan dari Klaster 1. Jarak antarklaster yang jelas mengindikasikan adanya ketimpangan distribusi sarana kesehatan antarprovinsi.

4.2 Saran

Berdasarkan hasil analisis klaster yang menunjukkan adanya ketimpangan ketersediaan sarana kesehatan antarprovinsi, beberapa saran yang dapat diberikan adalah sebagai berikut:

Data sarana kesehatan yang digunakan terbatas hanya pada 34 provinsi. Analisis dan visualisasi cluster selanjutnya hendaknya menggunakan data yang telah diperbarui secara berkala seiring bertambahnya data terbaru di tiap provinsi, sehingga ketersediaan sarana kesehatan dapat dipantau dan dijadikan dasar perumusan kebijakan jangka panjang.
Metode yang digunakan dalam analisis ini terbatas pada metode non-hierarki K-Means. Untuk pengembangan selanjutnya, disarankan mengimplementasikan metode analisis cluster lain, baik hierarki maupun non-hierarki, guna memperoleh hasil analisis dan pembanding yang lebih komprehensif.
Bagi pemerintah pusat maupun daerah perlu memberikan prioritas pembangunan sarana kesehatan pada provinsi yang tergolong dalam cluster dengan fasilitas rendah hingga sedang. Hal ini penting untuk mengurangi kesenjangan layanan kesehatan dan meningkatkan akses masyarakat terhadap sarana kesehatan yang memadai.

DAFTAR PUSTAKA

Walpole, R. E., Myers, R. H., Myers, S. L., & Ye, K. (2012). Probability and statistics for engineers and scientists (9th ed.). Pearson.
Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2010). Multivariate Data Analysis (7th ed.). Pearson.
Johnson, R. A., & Wichern, D. W. (2007). Applied Multivariate Statistical Analysis (6th ed.). Pearson Prentice Hall.
Everitt, B. S., Landau, S., Leese, M., & Stahl, D. (2011). Cluster Analysis (5th ed.). Wiley.
Han, J., & Kamber, M. (2006). Data mining: Concepts and techniques (2nd ed.). Morgan Kaufmann.
Kaiser, H. F. (1974). An index of factorial simplicity. Psychometrika, 39(1), 31–36.

Penerapan Metode K-Means dalam Pengelompokan Sarana Kesehatan di 34 Provinsi Indonesia

Dimas Raihan

2025-11-29