1 PENDAHULUAN

1.1 Latar Belakang

Sarana kesehatan merupakan unsur penting dalam mendukung penyelenggaraan pelayanan kesehatan masyarakat. Ketersediaan rumah sakit, puskesmas, poliklinik, dan fasilitas medis lainnya mencerminkan kesiapan suatu daerah dalam memberikan layanan kesehatan yang merata dan berkualitas. Pemerataan fasilitas kesehatan antarprovinsi di Indonesia masih menjadi tantangan, terutama karena adanya perbedaan jumlah penduduk, kondisi geografis, dan tingkat pembangunan daerah (Kementerian Kesehatan RI, 2023).

Untuk memahami pola ketersediaan sarana kesehatan di berbagai provinsi, diperlukan metode analisis yang mampu mengelompokkan provinsi berdasarkan kemiripan karakteristik datanya. Analisis cluster merupakan pendekatan statistik yang banyak digunakan untuk mengidentifikasi kelompok objek berdasarkan kesamaan tertentu tanpa variabel dependen (Johnson & Wichern, 2007). Salah satu metode cluster yang populer adalah K-Means, yaitu metode pengelompokan non-hierarki yang bekerja dengan meminimalkan jarak antar objek dalam cluster yang sama (MacQueen, 1967).

Dengan menerapkan metode K-Means pada data sarana kesehatan provinsi di Indonesia, penelitian ini diharapkan mampu menunjukkan pola pengelompokan wilayah berdasarkan tingkat ketersediaan fasilitas kesehatan. Informasi ini dapat menjadi dasar dalam perencanaan pemerataan sarana kesehatan, serta membantu pemangku kebijakan dalam memprioritaskan pembangunan fasilitas kesehatan di provinsi tertentu.

1.2 Rumusan Masalah

Berdasarkan latar belakang di atas, rumusan masalah dalam penelitian ini adalah:

Bagaimana pengelompokan provinsi di Indonesia berdasarkan ketersediaan sarana kesehatan menggunakan metode K-Means?
Bagaimana karakteristik setiap cluster yang terbentuk dari hasil analisis K-Means?

1.3 Tujuan

Bedasarkan rumusan masalah di atas, tujuan dari penelitian ini adalah:

Mengelompokkan provinsi di Indonesia berdasarkan kesamaan karakteristik jumlah sarana kesehatan menggunakan metode K-Means.
Menjelaskan karakteristik masing-masing cluster yang terbentuk sehingga dapat memberikan gambaran mengenai pola ketersediaan fasilitas kesehatan antarprovinsi.

2 TINJAUAN PUSTAKA

2.1 Statistika Deskriptif

Statistika deskriptif merupakan metode yang digunakan untuk menggambarkan atau meringkas sekumpulan data melalui ukuran pemusatan dan ukuran penyebaran (Triola, 2018). Penggunaan statistika deskriptif memberikan gambaran awal mengenai pola, kecenderungan, dan karakteristik data sebelum dilakukan analisis lebih lanjut.

Mean

Mean adalah nilai rata-rata dari seluruh observasi dalam suatu variabel.

\[ \bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i \]

Keterangan:

$n$ : jumlah data
$x_i$ : nilai data ke-i

Median

Median adalah nilai tengah setelah data diurutkan dari kecil ke besar (Walpole et al., 2017).

\[ \text{Posisi Median} = \frac{n+1}{2} \]

Modus

Modus adalah nilai yang paling banyak muncul dalam data. Suatu data dapat memiliki satu (unimodal), dua (bimodal), atau beberapa modus sekaligus.

Range (Jangkauan)

Mengukur persebaran data dengan melihat selisih antara nilai terbesar dan terkecil.

\[ \text{Range} = X_{\text{max}} - X_{\text{min}} \]

Kuartil

Kuartil membagi data menjadi empat bagian yang sama besar.

\[ Q_k = \frac{k(n+1)}{4}, \quad k = 1,2,3 \]

Interquartile Range (IQR)

\[ \text{IQR} = Q_3 - Q_1 \]

2.2 Analisis Cluster

Analisis cluster adalah teknik statistika multivariat untuk mengelompokkan objek berdasarkan kemiripan karakteristiknya tanpa variabel dependen (Johnson & Wichern, 2007). Objek dalam satu cluster memiliki kemiripan tinggi (homogen), sedangkan antarcluster berbeda signifikan (heterogen).

Jarak antar objek biasanya dihitung menggunakan jarak Euclidean:

\[ d(x_i, x_j) = \sqrt{\sum_{k=1}^{p}(x_{ik} - x_{jk})^2} \]

Keterangan:

$p$ : jumlah variabel
$x_{ik}$ : nilai objek i pada variabel k

2.2.1 Analisis Cluster Hierarki

Analisis cluster hierarki membentuk struktur bertingkat (dendrogram) melalui penggabungan cluster secara bertahap (agglomerative) atau pemecahan cluster (divisive). Prosesnya bergantung pada metode linkage (Hair et al., 2010):

Single Linkage

Menggunakan jarak minimum antar objek dari dua cluster:

\[ D(A,B) = \min_{i \in A, j \in B} d(i,j) \]

Complete Linkage

Menggunakan jarak maksimum:

\[ D(A,B) = \max_{i \in A, j \in B} d(i,j) \]

Average Linkage

\[ D(A,B) = \frac{1}{|A||B|} \sum_{i \in A} \sum_{j \in B} d(i,j) \]

Metode Ward

Menggabungkan dua cluster dengan peningkatan Within Cluster Sum of Squares (WCSS) paling kecil:

\[ \Delta SSE = \sum_{i=1}^{n} (x_i - \mu)^2 \]

Metode Ward menghasilkan cluster yang sangat kompak.

2.2.2 Analisis Cluster Non - Hierarki

Analisis klaster non-hierarki bekerja dengan menentukan jumlah cluster (k) terlebih dahulu. Metode ini lebih efisien untuk dataset berukuran besar dan bersifat iteratif (Kaufman & Rousseeuw, 2009). Contoh metode non-hierarki adalah K-Means, K-Medoids, dan CLARA.

2.3 Uji Asumsi Analisis Cluster

2.3.1 Uji Sampel Representatif

Pengujian sampel representatif bertujuan memastikan bahwa data yang digunakan mampu mencerminkan struktur populasi secara memadai. Salah satu ukuran yang digunakan adalah Kaiser-Meyer-Olkin (KMO). Nilai KMO yang berada pada rentang ≥ 0,50 menunjukkan bahwa pola korelasi antar variabel sudah cukup baik sehingga data layak dianalisis lebih lanjut menggunakan metode multivariat seperti analisis cluster. Semakin mendekati nilai 1, semakin kuat hubungan antar variabel dan semakin representatif sampel untuk membentuk pengelompokan (Ulfah & Lestari, 2021; Rosyidah et al., 2019).

2.3.2 Uji Non Multikolinearitas

Uji non-multikolinearitas dilakukan untuk memastikan bahwa variabel-variabel yang dianalisis tidak memiliki hubungan yang terlalu tinggi. Pemeriksaan dilakukan menggunakan Variance Inflation Factor (VIF) dengan rumus:

\[ \text{VIF} = \frac{1}{1 - R^2} \]

Variabel dikatakan bebas multikolinearitas apabila memiliki nilai VIF < 10. Apabila VIF ≥ 10, berarti terdapat hubungan linear yang sangat kuat antar variabel, yang dapat mengganggu proses pembentukan cluster (Hair et al., 2019).

2.4 Analisis Cluster K-Means

K-Means adalah teknik klaster non-hierarki yang mengelompokkan objek ke dalam k cluster berdasarkan kedekatan terhadap centroid (MacQueen, 1967). Tujuan metode ini adalah meminimalkan jarak internal cluster (within-cluster variation).

Pembaruan Centroid

\[ \mu_j = \frac{1}{n_j} \sum_{i \in C_j} x_i \]

Keterangan:

$\mu_j$ : centroid cluster ke-j
$n_j$ : jumlah anggota cluster ke-j
$C_j$ : anggota cluster j

Fungsi Tujuan (WCSS)

\[ WCSS = \sum_{j=1}^{k} \sum_{i \in C_j} \| x_i - \mu_j \|^2 \]

K-Means berusaha meminimalkan nilai WCSS

2.4.1 Standarisasi Data

Standarisasi diperlukan jika variabel memiliki skala yang berbeda agar tidak mendominasi perhitungan jarak. Biasanya digunakan z-score standardization (Hair et al., 2010):

\[ z = \frac{x - \bar{x}}{s} \]

Keterangan:

$\bar{x}$ : mean
$s$ : standar deviasi

2.4.2 Menentukan Jumlah Cluster Optimal

Menentukan jumlah cluster merupakan tahap penting dalam K-Means. Dua metode umum digunakan:

Metode Elbow

Metode Elbow menggunakan grafik Within-Cluster Sum of Squares (WCSS) terhadap jumlah cluster k. Titik siku (elbow) adalah jumlah cluster optimal (Ketchen & Shook, 1996).

\[ WCSS(k) = \sum_{j=1}^{k} \sum_{i \in C_j} \| x_i - \mu_j \|^2 \]

Metode Silhoutte

Mengukur kualitas cluster dengan membandingkan jarak objek terhadap cluster sendiri dan cluster lain (Rousseeuw, 1987).

\[ s(i) = \frac{b(i) - a(i)}{\max(a(i), b(i))} \]

Keterangan:

$a(i)$ : jarak rata-rata objek i ke cluster sendiri
$b(i)$ : jarak minimum objek i ke cluster lain

Nilai silhouette diinterpretasikan sebagai berikut:

$s(i) \approx 1$ → objek berada pada cluster yang tepat
$s(i) \approx 0$ → objek berada di batas dua cluster
$s(i) < 0$ → objek mengalami salah pengelompokan

3 DATA DAN SOURCE CODE

3.1 Data

Data yang digunakan dalam penelitian ini merupakan data sekunder yang bersumber dari publikasi Jumlah Desa atau Kelurahan yang Memiliki Fasilitas Kesehatan Menurut Provinsi yang diterbitkan oleh Badan Pusat Statistik (BPS). Data diperoleh melalui situs resmi BPS dan diunduh dalam format Microsoft Excel untuk keperluan analisis.

Sumber Data: Badan Pusat Statistik Indonesia. (8 Februari 2019). Jumlah Desa/Kelurahan Yang Memiliki Sarana Kesehatan Menurut Provinsi (Desa), 2018.

3.2 Source Code

3.2.1 Load Packages

Library berikut digunakan untuk membaca data, melakukan standarisasi, mengolah data, melakukan proses clustering, serta menampilkan visualisasi hasil pengelompokan.

library(readxl)
library(psych)
library(factoextra)
library(dplyr)
library(cluster)
library(tidyverse)

Penjelasan fungsi library:

readxl digunakan untuk membaca file Excel (.xlsx) tanpa memerlukan aplikasi Microsoft Excel.
psych digunakan untuk melakukan analisis statistik dasar seperti reliabilitas dan analisis faktor.
factoextra digunakan untuk memvisualisasikan hasil analisis multivariat, khususnya clustering (Elbow, Silhouette, dan plot cluster).
dplyr menyediakan fungsi untuk manipulasi data seperti select, mutate, filter, summarise, dan group_by.
cluster digunakan untuk melakukan analisis cluster, termasuk K-Means, hierarchical clustering, dan evaluasi jarak antar objek.
tidyverse adalah kumpulan paket seperti dplyr, tidyr, dan ggplot2 yang mempermudah proses transformasi dan pembersihan data.

3.2.2 Import Data

data_raw <- read_excel("D:/SEMESTER 5/ANALISIS MULTIVARIAT I/PRAKTIKUM/DATA_SARANA_KESEHATAN.xlsx")
# Hapus kolom provinsi (karena bukan numerik)
data <- data_raw[, -1]

Penjelasan Syntax:

read_excel() membaca file Excel yang berisi data sarana kesehatan.
Karena kolom pertama berisi nama provinsi (bukan numerik), kolom tersebut tidak dapat digunakan dalam analisis cluster yang hanya menerima data numerik.
data_raw[, -1] menghapus kolom pertama, sehingga hanya variabel numerik yang digunakan.

3.2.3 Statistika Deskriptif

summary(data)

Penjelasan Syntax:

summary() memberikan ringkasan statistik untuk masing-masing variabel, seperti nilai minimum, maksimum, kuartil, dan median.
Digunakan untuk memahami gambaran awal distribusi data sebelum dilakukan analisis lebih lanjut.

3.2.4 Uji Asumsi Analisis Cluster

Uji Sampel Representatif

ujiKMO <- KMO(data)

Penjelasan Syntax:

KMO() digunakan untuk menghitung nilai Kaiser-Meyer-Olkin sebagai uji kelayakan sampel sebelum dilakukan analisis multivariat.

Uji Non-Multikolinearitas

VIF <- cor(data, method = 'pearson')

Penjelasan Syntax:

cor() digunakan untuk menghitung matriks korelasi sebagai langkah awal mendeteksi multikolinearitas antar variabel.
method = "pearson" digunakan untuk menghitung korelasi Pearson. Hasilnya disimpan dalam objek VIF sebagai dasar evaluasi multikolinearitas.

3.2.5 Standarisasi Data

datastand <- scale(data)
head(datastand)

Penjelasan Syntax:

scale() melakukan standarisasi data sehingga setiap variabel memiliki mean = 0 dan standar deviasi = 1.
Standarisasi diperlukan karena K-Means sensitif terhadap perbedaan skala.
head(datastand) menampilkan beberapa baris awal hasil standarisasi.

3.2.6 Menentukan Jumlah Cluster Optimal

Metode Elbow

fviz_nbclust(datastand, kmeans, method = "wss") +
  labs(title = "Elbow Method",
       subtitle = "Menentukan Jumlah Cluster Optimal")

Penjelasan Syntax:

fviz_nbclust() memvisualisasikan jumlah cluster optimal.
Opsi method = "wss" menghitung Within-Cluster Sum of Squares.
Grafik Elbow menunjukkan titik tekuk (elbow) sebagai jumlah cluster terbaik.

Metode Silhoutte

fviz_nbclust(datastand, kmeans, method = "silhouette") +
  labs(title = "Silhouette Method",
       subtitle = "Validasi Jumlah Cluster Optimal")

Penjelasan Syntax:

method = "silhouette" menghitung nilai Silhouette untuk berbagai jumlah cluster.
Semakin tinggi nilai Silhouette, semakin baik pemisahan antar cluster.
Grafik membantu memvalidasi jumlah cluster yang dianggap optimal berdasarkan struktur data.

3.2.7 Analisis Cluster K-Means

k_optimal <- 2
set.seed(123)
kmeans_res <- kmeans(datastand,
                     centers = k_optimal,
                     nstart = 25)
# Jumlah anggota tiap cluster
table(kmeans_res$cluster)

Penjelasan Syntax:

k_optimal <- 2 menentukan jumlah cluster berdasarkan hasil Elbow & Silhouette.
set.seed(123) digunakan agar hasil clustering konsisten setiap menjalankan kode.
kmeans() melakukan proses pengelompokan K-Means:
- centers = k_optimal → jumlah cluster
- nstart = 25 → mencoba 25 titik awal berbeda untuk hasil yang stabil
table(kmeans_res$cluster) menampilkan jumlah anggota pada setiap cluster.

3.2.8 Visualisasi Cluster K-Means

fviz_cluster(kmeans_res, data = datastand,
             ellipse.type = "euclid",
             star.plot = TRUE,
             repel = TRUE,
             ggtheme = theme_minimal(),
             main = "Visualisasi Cluster K-Means (Non-Hierarki)") +
  coord_fixed()

Penjelasan Syntax:

fviz_cluster() menampilkan visualisasi pengelompokan.
ellipse.type = "euclid" menggambar batas cluster menggunakan jarak Euclidean.
star.plot = TRUE menghubungkan anggota cluster ke pusat cluster.
repel = TRUE menghindari tumpang tindih label.
coord_fixed() menjaga rasio sumbu agar proporsional.

4 HASIL DAN PEMBAHASAN

4.1 Statistika Deskriptif

  Rumah Sakit     Rumah Sakit Bersalin   Poliklinik        Puskesmas     
 Min.   : 10.00   Min.   :   2.00      Min.   :  15.00   Min.   :  59.0  
 1st Qu.: 24.00   1st Qu.:  25.25      1st Qu.:  51.75   1st Qu.: 174.0  
 Median : 40.00   Median :  70.00      Median : 105.50   Median : 244.0  
 Mean   : 68.21   Mean   : 188.44      Mean   : 248.56   Mean   : 318.2  
 3rd Qu.: 63.25   3rd Qu.: 194.25      3rd Qu.: 221.25   3rd Qu.: 383.8  
 Max.   :317.00   Max.   :1245.00      Max.   :1670.00   Max.   :1170.0  
 Puskesmas Pembantu     Apotek      
 Min.   :   3.0     Min.   :  47.0  
 1st Qu.: 373.5     1st Qu.: 103.5  
 Median : 605.5     Median : 192.5  
 Mean   : 769.5     Mean   : 356.0  
 3rd Qu.:1015.2     3rd Qu.: 323.8  
 Max.   :2338.0     Max.   :2068.0

Hasil statistika deskriptif menunjukkan bahwa setiap jenis sarana kesehatan memiliki variasi yang cukup besar antarprovinsi. Rumah Sakit memiliki sebaran dari 10 hingga 317 unit, sedangkan Rumah Sakit Bersalin bervariasi lebih ekstrem (2 hingga 1.245 unit), menunjukkan ketimpangan penyediaan layanan kesehatan ibu dan anak. Fasilitas seperti Poliklinik, Puskesmas, dan Puskesmas Pembantu juga menunjukkan rentang yang lebar, menandakan adanya perbedaan kemampuan pelayanan dasar antarwilayah. Sementara itu, Apotek memiliki jumlah yang cukup bervariasi (47 hingga 2.068), mencerminkan perbedaan akses obat dan layanan farmasi antarprovinsi. Secara keseluruhan, seluruh variabel menunjukkan perbedaan signifikan antarprovinsi sehingga analisis cluster layak dilakukan untuk mengelompokkan wilayah berdasarkan kesamaan penyediaan sarana kesehatan.

4.2 Uji Asumsi Analisis Cluster

Uji Sampel Representatif

Kaiser-Meyer-Olkin factor adequacy
Call: KMO(r = data)
Overall MSA =  0.9
MSA for each item = 
         Rumah Sakit Rumah Sakit Bersalin           Poliklinik 
                0.94                 0.91                 0.92 
           Puskesmas   Puskesmas Pembantu               Apotek 
                0.86                 0.84                 0.94

Nilai Overall MSA = 0,90, berada pada kategori sangat baik (meritorious). Ini menunjukkan bahwa pola korelasi antar variabel sangat memadai untuk dilakukan analisis multivariat, termasuk analisis cluster.

Nilai MSA per variabel (0,84–0,94) juga berada di atas 0,80, menandakan bahwa semua variabel (Rumah Sakit, Rumah Sakit Bersalin, Poliklinik, Puskesmas, Puskesmas Pembantu, dan Apotek) memiliki kecukupan sampel yang sangat baik dan layak untuk dimasukkan dalam analisis.

Maka dari itu data sangat layak digunakan untuk analisis cluster karena kecukupan sampel tinggi dan struktur korelasi antar variabel mendukung pembentukan kelompok.

Uji Non-Multikolinearitas

                     Rumah Sakit Rumah Sakit Bersalin Poliklinik Puskesmas
Rumah Sakit            1.0000000            0.9618700  0.9565052 0.9330942
Rumah Sakit Bersalin   0.9618700            1.0000000  0.9690787 0.9342288
Poliklinik             0.9565052            0.9690787  1.0000000 0.9284192
Puskesmas              0.9330942            0.9342288  0.9284192 1.0000000
Puskesmas Pembantu     0.7934684            0.7834446  0.7714473 0.8998482
Apotek                 0.9600062            0.9589805  0.9499034 0.9235252
                     Puskesmas Pembantu    Apotek
Rumah Sakit                   0.7934684 0.9600062
Rumah Sakit Bersalin          0.7834446 0.9589805
Poliklinik                    0.7714473 0.9499034
Puskesmas                     0.8998482 0.9235252
Puskesmas Pembantu            1.0000000 0.7967605
Apotek                        0.7967605 1.0000000

Hasil korelasi menunjukkan bahwa semua variabel memiliki korelasi sangat tinggi (0,77–0,97). Korelasi sebesar ini menunjukkan bahwa pola peningkatan fasilitas kesehatan antar provinsi cenderung bergerak searah.

Walaupun korelasi tinggi pada regresi dapat menandakan multikolinearitas, pada analisis cluster kondisi ini tidak menjadi masalah, bahkan justru umum terjadi karena variabel menggambarkan fenomena yang saling terkait.

Variabel memiliki hubungan yang kuat satu sama lain, namun hal ini tidak mengganggu proses clustering. Data tetap dapat digunakan, dan korelasi tinggi justru membantu dalam mengelompokkan provinsi berdasarkan kemiripan fasilitas kesehatan.

4.3 Standarisasi Data

Setelah dilakukan proses standarisasi menggunakan metode z-score, seluruh variabel kini berada pada skala yang sama, yaitu memiliki rata-rata 0 dan standar deviasi 1. Proses ini penting untuk mencegah variabel dengan nilai besar (misalnya Puskesmas Pembantu atau Apotek) mendominasi perhitungan jarak dalam analisis clustering. Dengan data yang sudah distandarisasi, setiap variabel berkontribusi secara proporsional terhadap pembentukan cluster, sehingga hasil pengelompokan menjadi lebih objektif dan akurat.

4.4 Menentukan Jumlah Cluster Optimal

Berdasarkan Elbow Method, terlihat bahwa penurunan nilai Within-Cluster Sum of Squares (WSS) mulai melambat secara signifikan setelah k = 2, sehingga titik siku (elbow) berada pada cluster ke-2. Artinya, pembentukan dua cluster sudah cukup mewakili struktur data tanpa peningkatan kualitas yang berarti jika jumlah cluster ditambah.

Sementara itu, Silhouette Method menunjukkan nilai average silhouette width tertinggi juga pada k = 2 dengan nilai mendekati 0,8. Nilai ini menandakan bahwa pemisahan antar cluster sangat jelas, serta anggota dalam cluster cukup kompak dan seragam.

Dengan demikian, kedua metode menunjukkan hasil yang konsisten, yaitu jumlah cluster optimal adalah 2, karena memberikan pemisahan terbaik dan struktur pengelompokan yang paling stabil.

4.5 Analisis Cluster K-Means

Tabel Anggota Cluster Provinsi (K-Means)
Cluster	Anggota Cluster
1	ACEH, SUMATERA BARAT, RIAU, JAMBI, SUMATERA SELATAN, BENGKULU, LAMPUNG, KEP. BANGKA BELITUNG, KEP. RIAU, DKI JAKARTA, DI YOGYAKARTA, BANTEN, BALI, NUSA TENGGARA BARAT, NUSA TENGGARA TIMUR, KALIMANTAN BARAT, KALIMANTAN TENGAH, KALIMANTAN SELATAN, KALIMANTAN TIMUR, KALIMANTAN UTARA, SULAWESI UTARA, SULAWESI TENGAH, SULAWESI SELATAN, SULAWESI TENGGARA, GORONTALO, SULAWESI BARAT, MALUKU, MALUKU UTARA, PAPUA BARAT, PAPUA
2	SUMATERA UTARA, JAWA BARAT, JAWA TENGAH, JAWA TIMUR

Berdasarkan hasil pengelompokan K-Means dengan k = 2, provinsi di Indonesia terbagi menjadi dua kelompok utama:

Cluster 1: Provinsi dengan penyediaan fasilitas kesehatan lebih tinggi
- Provinsi dalam kelompok ini memiliki jumlah fasilitas kesehatan yang lebih besar secara rata-rata (rumah sakit, puskesmas, poliklinik, apotek, dan fasilitas lain).
- Umumnya merupakan provinsi dengan populasi besar atau wilayah luas, sehingga kebutuhan dan distribusi sarana kesehatan juga lebih tinggi.
- Fasilitas kesehatan di provinsi-provinsi ini lebih merata dan terdistribusi dibanding cluster lainnya.
Cluster 2: Provinsi dengan penyediaan fasilitas lebih rendah
- Meskipun provinsi-provinsi ini memiliki populasi terbesar di Indonesia, jumlah fasilitasnya lebih rendah relatif terhadap ukuran penduduk, sehingga muncul sebagai cluster tersendiri.
- Ini menunjukkan bahwa rasio fasilitas kesehatan terhadap jumlah penduduk pada provinsi ini lebih rendah dibanding provinsi dalam cluster 1.
- Kondisi ini menggambarkan adanya potensi kekurangan fasilitas kesehatan jika dilihat per desa/kelurahan.

4.6 Visualisasi Cluster K-Means

Berdasarkan visualisasi hasil K-Means, terlihat bahwa provinsi-provinsi terbagi menjadi dua kelompok yang terpisah dengan cukup jelas. Cluster 1 (warna merah) berisi mayoritas provinsi yang terkumpul di area dengan nilai koordinat relatif rendah, menggambarkan bahwa kelompok ini memiliki jumlah fasilitas kesehatan (Rumah Sakit, Puskesmas, Poliklinik, dan lainnya) yang cenderung lebih sedikit atau berada pada tingkat penyediaan menengah ke bawah. Sebaliknya, Cluster 2 (warna biru) terdiri dari provinsi yang posisinya berada jauh dari kelompok pertama dengan nilai dimensi yang lebih tinggi, menunjukkan bahwa provinsi-provinsi ini memiliki penyediaan fasilitas kesehatan yang jauh lebih banyak dibanding cluster lainnya. Bentuk ellips yang saling terpisah dengan jarak cukup lebar menandakan bahwa kedua cluster memiliki karakteristik yang sangat berbeda dan pemisahan cluster sudah terbentuk dengan baik.

5 KESIMPULAN DAN SARAN

5.1 Kesimpulan

Berdasarkan hasil analisis cluster non-hierarki metode K-Means terhadap data sarana kesehatan provinsi di Indonesia, diperoleh beberapa poin penting sebagai berikut:

Jumlah cluster optimal adalah 2, yang ditentukan berdasarkan metode Elbow dan Silhouette. Nilai Silhouette tertinggi (≈0,78) menunjukkan bahwa pembagian dua cluster memberikan pemisahan yang paling jelas dan kompak.
Cluster 1 berisi sebagian besar provinsi di Indonesia. Provinsi dalam kelompok ini memiliki jumlah sarana kesehatan relatif rendah hingga sedang, seperti rumah sakit, poliklinik, puskesmas, puskesmas pembantu, dan apotek. Kondisi ini menunjukkan bahwa pemerataan fasilitas kesehatan di wilayah tersebut masih perlu ditingkatkan.
Cluster 2 berisi provinsi dengan jumlah fasilitas kesehatan jauh lebih tinggi, mencerminkan akses dan ketersediaan layanan kesehatan yang lebih baik. Provinsi dalam cluster ini umumnya merupakan wilayah berpenduduk besar atau pusat ekonomi sehingga kebutuhan dan pembangunan fasilitas kesehatannya lebih maju.
Visualisasi cluster menunjukkan pemisahan yang jelas antara kedua kelompok, mengindikasikan bahwa karakteristik penyediaan fasilitas kesehatan antarprovinsi memang berbeda signifikan.

Secara keseluruhan, analisis K-Means berhasil mengelompokkan provinsi berdasarkan pola penyediaan fasilitas kesehatan, sehingga dapat dimanfaatkan untuk memetakan kebutuhan pembangunan layanan kesehatan antarwilayah.

5.2 Saran

Perlu pemerataan pembangunan fasilitas kesehatan terutama di provinsi dalam Cluster 1, karena kelompok ini menunjukkan keterbatasan akses terhadap layanan kesehatan dasar maupun lanjutan.
Pemerintah daerah dan pusat dapat menjadikan hasil cluster ini sebagai bahan prioritas alokasi anggaran, misalnya pembangunan puskesmas, penyediaan tenaga kesehatan, dan fasilitas pendukung di wilayah yang termasuk cluster rendah.
Untuk penelitian selanjutnya, disarankan:
- Menambahkan variabel kualitas layanan kesehatan (jumlah tenaga medis, rasio tempat tidur, dll.).
- Menggunakan metode clustering lain seperti Hierarchical, DBSCAN, atau Fuzzy C-Means sebagai pembanding.
- Menggabungkan data beberapa tahun untuk melihat perubahan pola cluster secara temporal.
Sistem informasi kesehatan daerah dapat memanfaatkan hasil pengelompokan ini untuk monitoring dan evaluasi rencana strategis, sehingga pemerataan akses kesehatan dapat lebih terstruktur.

6 DAFTAR PUSTAKA

Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2010). Multivariate data analysis (7th ed.). Pearson.

Johnson, R. A., & Wichern, D. W. (2007). Applied multivariate statistical analysis (6th ed.). Pearson.

Kaufman, L., & Rousseeuw, P. J. (2009). Finding groups in data: An introduction to cluster analysis. Wiley.

Kementerian Kesehatan Republik Indonesia. (2023). Profil kesehatan Indonesia 2022. Kemenkes RI.

Ketchen, D. J., & Shook, C. L. (1996). The application of cluster analysis in strategic management research: An analysis and critique. Strategic Management Journal, 17(6), 441–458.

MacQueen, J. (1967). Some methods for classification and analysis of multivariate observations. Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, 281–297.

Rosyidah, E., Widodo, T., & Handayani, S. (2019). Analisis faktor menggunakan pendekatan KMO dan Bartlett’s Test. Jurnal Statistika Universitas Muhammadiyah Semarang, 7(2), 45–52.

Rousseeuw, P. J. (1987). Silhouettes: A graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics, 20, 53–65.

Triola, M. F. (2018). Elementary statistics (13th ed.). Pearson.

Ulfah, N., & Lestari, D. (2021). Uji kelayakan data menggunakan KMO dan Bartlett untuk analisis multivariat. Jurnal Sains Matematika dan Statistika, 12(1), 12–20.

Walpole, R. E., Myers, R. H., Myers, S. L., & Ye, K. (2017). Probability and statistics for engineers and scientists (9th ed.). Pearson.

Analisis Cluster Non-Hierarki (K-Means) pada Data Sarana Kesehatan Provinsi di Indonesia

Hilwa Al - Huwaida

2025-11-30

1 PENDAHULUAN

1.1 Latar Belakang

1.2 Rumusan Masalah

1.3 Tujuan

2 TINJAUAN PUSTAKA

2.1 Statistika Deskriptif

2.2 Analisis Cluster

2.2.1 Analisis Cluster Hierarki

2.2.2 Analisis Cluster Non - Hierarki

2.3 Uji Asumsi Analisis Cluster

2.3.1 Uji Sampel Representatif

2.3.2 Uji Non Multikolinearitas

2.4 Analisis Cluster K-Means

2.4.1 Standarisasi Data

2.4.2 Menentukan Jumlah Cluster Optimal

3 DATA DAN SOURCE CODE

3.1 Data

3.2 Source Code

3.2.1 Load Packages

3.2.2 Import Data

3.2.3 Statistika Deskriptif

3.2.4 Uji Asumsi Analisis Cluster

3.2.5 Standarisasi Data

3.2.6 Menentukan Jumlah Cluster Optimal

3.2.7 Analisis Cluster K-Means

3.2.8 Visualisasi Cluster K-Means

4 HASIL DAN PEMBAHASAN

4.1 Statistika Deskriptif

4.2 Uji Asumsi Analisis Cluster

4.3 Standarisasi Data

4.4 Menentukan Jumlah Cluster Optimal

4.5 Analisis Cluster K-Means

4.6 Visualisasi Cluster K-Means

5 KESIMPULAN DAN SARAN

5.1 Kesimpulan

5.2 Saran

6 DAFTAR PUSTAKA