1 PENDAHULUAN
1.1 Latar Belakang
Sarana kesehatan merupakan unsur penting dalam mendukung penyelenggaraan pelayanan kesehatan masyarakat. Ketersediaan rumah sakit, puskesmas, poliklinik, dan fasilitas medis lainnya mencerminkan kesiapan suatu daerah dalam memberikan layanan kesehatan yang merata dan berkualitas. Pemerataan fasilitas kesehatan antarprovinsi di Indonesia masih menjadi tantangan, terutama karena adanya perbedaan jumlah penduduk, kondisi geografis, dan tingkat pembangunan daerah (Kementerian Kesehatan RI, 2023).
Untuk memahami pola ketersediaan sarana kesehatan di berbagai provinsi, diperlukan metode analisis yang mampu mengelompokkan provinsi berdasarkan kemiripan karakteristik datanya. Analisis cluster merupakan pendekatan statistik yang banyak digunakan untuk mengidentifikasi kelompok objek berdasarkan kesamaan tertentu tanpa variabel dependen (Johnson & Wichern, 2007). Salah satu metode cluster yang populer adalah K-Means, yaitu metode pengelompokan non-hierarki yang bekerja dengan meminimalkan jarak antar objek dalam cluster yang sama (MacQueen, 1967).
Dengan menerapkan metode K-Means pada data sarana kesehatan provinsi di Indonesia, penelitian ini diharapkan mampu menunjukkan pola pengelompokan wilayah berdasarkan tingkat ketersediaan fasilitas kesehatan. Informasi ini dapat menjadi dasar dalam perencanaan pemerataan sarana kesehatan, serta membantu pemangku kebijakan dalam memprioritaskan pembangunan fasilitas kesehatan di provinsi tertentu.
1.2 Rumusan Masalah
Berdasarkan latar belakang di atas, rumusan masalah dalam penelitian ini adalah:
- Bagaimana pengelompokan provinsi di Indonesia berdasarkan ketersediaan sarana kesehatan menggunakan metode K-Means?
- Bagaimana karakteristik setiap cluster yang terbentuk dari hasil analisis K-Means?
1.3 Tujuan
Bedasarkan rumusan masalah di atas, tujuan dari penelitian ini adalah:
- Mengelompokkan provinsi di Indonesia berdasarkan kesamaan karakteristik jumlah sarana kesehatan menggunakan metode K-Means.
- Menjelaskan karakteristik masing-masing cluster yang terbentuk sehingga dapat memberikan gambaran mengenai pola ketersediaan fasilitas kesehatan antarprovinsi.
2 TINJAUAN PUSTAKA
2.1 Statistika Deskriptif
Statistika deskriptif merupakan metode yang digunakan untuk menggambarkan atau meringkas sekumpulan data melalui ukuran pemusatan dan ukuran penyebaran (Triola, 2018). Penggunaan statistika deskriptif memberikan gambaran awal mengenai pola, kecenderungan, dan karakteristik data sebelum dilakukan analisis lebih lanjut.
Mean
Mean adalah nilai rata-rata dari seluruh observasi dalam suatu variabel.
\[ \bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i \]
Keterangan:
- \(n\) : jumlah data
- \(x_i\) : nilai data ke-i
Median
Median adalah nilai tengah setelah data diurutkan dari kecil ke besar (Walpole et al., 2017).
\[ \text{Posisi Median} = \frac{n+1}{2} \]
Modus
Modus adalah nilai yang paling banyak muncul dalam data. Suatu data dapat memiliki satu (unimodal), dua (bimodal), atau beberapa modus sekaligus.
Range (Jangkauan)
Mengukur persebaran data dengan melihat selisih antara nilai terbesar dan terkecil.
\[ \text{Range} = X_{\text{max}} - X_{\text{min}} \]
Kuartil
Kuartil membagi data menjadi empat bagian yang sama besar.
\[ Q_k = \frac{k(n+1)}{4}, \quad k = 1,2,3 \]
Interquartile Range (IQR)
\[ \text{IQR} = Q_3 - Q_1 \]
2.2 Analisis Cluster
Analisis cluster adalah teknik statistika multivariat untuk mengelompokkan objek berdasarkan kemiripan karakteristiknya tanpa variabel dependen (Johnson & Wichern, 2007). Objek dalam satu cluster memiliki kemiripan tinggi (homogen), sedangkan antarcluster berbeda signifikan (heterogen).
Jarak antar objek biasanya dihitung menggunakan jarak Euclidean:
\[ d(x_i, x_j) = \sqrt{\sum_{k=1}^{p}(x_{ik} - x_{jk})^2} \]
Keterangan:
- \(p\) : jumlah variabel
- \(x_{ik}\) : nilai objek i pada variabel k
2.2.1 Analisis Cluster Hierarki
Analisis cluster hierarki membentuk struktur bertingkat (dendrogram) melalui penggabungan cluster secara bertahap (agglomerative) atau pemecahan cluster (divisive). Prosesnya bergantung pada metode linkage (Hair et al., 2010):
Single Linkage
Menggunakan jarak minimum antar objek dari dua cluster:
\[ D(A,B) = \min_{i \in A, j \in B} d(i,j) \]
Complete Linkage
Menggunakan jarak maksimum:
\[ D(A,B) = \max_{i \in A, j \in B} d(i,j) \]
Average Linkage
\[ D(A,B) = \frac{1}{|A||B|} \sum_{i \in A} \sum_{j \in B} d(i,j) \]
Metode Ward
Menggabungkan dua cluster dengan peningkatan Within Cluster Sum of Squares (WCSS) paling kecil:
\[ \Delta SSE = \sum_{i=1}^{n} (x_i - \mu)^2 \]
Metode Ward menghasilkan cluster yang sangat kompak.
2.2.2 Analisis Cluster Non - Hierarki
Analisis klaster non-hierarki bekerja dengan menentukan jumlah cluster (k) terlebih dahulu. Metode ini lebih efisien untuk dataset berukuran besar dan bersifat iteratif (Kaufman & Rousseeuw, 2009). Contoh metode non-hierarki adalah K-Means, K-Medoids, dan CLARA.
2.3 Uji Asumsi Analisis Cluster
2.3.1 Uji Sampel Representatif
Pengujian sampel representatif bertujuan memastikan bahwa data yang digunakan mampu mencerminkan struktur populasi secara memadai. Salah satu ukuran yang digunakan adalah Kaiser-Meyer-Olkin (KMO). Nilai KMO yang berada pada rentang ≥ 0,50 menunjukkan bahwa pola korelasi antar variabel sudah cukup baik sehingga data layak dianalisis lebih lanjut menggunakan metode multivariat seperti analisis cluster. Semakin mendekati nilai 1, semakin kuat hubungan antar variabel dan semakin representatif sampel untuk membentuk pengelompokan (Ulfah & Lestari, 2021; Rosyidah et al., 2019).
2.3.2 Uji Non Multikolinearitas
Uji non-multikolinearitas dilakukan untuk memastikan bahwa variabel-variabel yang dianalisis tidak memiliki hubungan yang terlalu tinggi. Pemeriksaan dilakukan menggunakan Variance Inflation Factor (VIF) dengan rumus:
\[ \text{VIF} = \frac{1}{1 - R^2} \]
Variabel dikatakan bebas multikolinearitas apabila memiliki nilai VIF < 10. Apabila VIF ≥ 10, berarti terdapat hubungan linear yang sangat kuat antar variabel, yang dapat mengganggu proses pembentukan cluster (Hair et al., 2019).
2.4 Analisis Cluster K-Means
K-Means adalah teknik klaster non-hierarki yang mengelompokkan objek ke dalam k cluster berdasarkan kedekatan terhadap centroid (MacQueen, 1967). Tujuan metode ini adalah meminimalkan jarak internal cluster (within-cluster variation).
Pembaruan Centroid
\[ \mu_j = \frac{1}{n_j} \sum_{i \in C_j} x_i \]
Keterangan:
- \(\mu_j\) : centroid cluster ke-j
- \(n_j\) : jumlah anggota cluster ke-j
- \(C_j\) : anggota cluster j
Fungsi Tujuan (WCSS)
\[ WCSS = \sum_{j=1}^{k} \sum_{i \in C_j} \| x_i - \mu_j \|^2 \]
K-Means berusaha meminimalkan nilai WCSS
2.4.1 Standarisasi Data
Standarisasi diperlukan jika variabel memiliki skala yang berbeda agar tidak mendominasi perhitungan jarak. Biasanya digunakan z-score standardization (Hair et al., 2010):
\[ z = \frac{x - \bar{x}}{s} \]
Keterangan:
- \(\bar{x}\) : mean
- \(s\) : standar deviasi
2.4.2 Menentukan Jumlah Cluster Optimal
Menentukan jumlah cluster merupakan tahap penting dalam K-Means. Dua metode umum digunakan:
Metode Elbow
Metode Elbow menggunakan grafik Within-Cluster Sum of Squares (WCSS) terhadap jumlah cluster k. Titik siku (elbow) adalah jumlah cluster optimal (Ketchen & Shook, 1996).
\[ WCSS(k) = \sum_{j=1}^{k} \sum_{i \in C_j} \| x_i - \mu_j \|^2 \]
Metode Silhoutte
Mengukur kualitas cluster dengan membandingkan jarak objek terhadap cluster sendiri dan cluster lain (Rousseeuw, 1987).
\[ s(i) = \frac{b(i) - a(i)}{\max(a(i), b(i))} \]
Keterangan:
- \(a(i)\) : jarak rata-rata objek i ke cluster sendiri
- \(b(i)\) : jarak minimum objek i ke cluster lain
Nilai silhouette diinterpretasikan sebagai berikut:
- \(s(i) \approx 1\) → objek berada pada cluster yang tepat
- \(s(i) \approx 0\) → objek berada di batas dua cluster
- \(s(i) < 0\) → objek mengalami salah pengelompokan
3 DATA DAN SOURCE CODE
3.1 Data
Data yang digunakan dalam penelitian ini merupakan data sekunder yang bersumber dari publikasi Jumlah Desa atau Kelurahan yang Memiliki Fasilitas Kesehatan Menurut Provinsi yang diterbitkan oleh Badan Pusat Statistik (BPS). Data diperoleh melalui situs resmi BPS dan diunduh dalam format Microsoft Excel untuk keperluan analisis.
3.2 Source Code
3.2.1 Load Packages
Library berikut digunakan untuk membaca data, melakukan standarisasi, mengolah data, melakukan proses clustering, serta menampilkan visualisasi hasil pengelompokan.
library(readxl)
library(psych)
library(factoextra)
library(dplyr)
library(cluster)
library(tidyverse)Penjelasan fungsi library:
readxldigunakan untuk membaca file Excel (.xlsx) tanpa memerlukan aplikasi Microsoft Excel.psychdigunakan untuk melakukan analisis statistik dasar seperti reliabilitas dan analisis faktor.factoextradigunakan untuk memvisualisasikan hasil analisis multivariat, khususnya clustering (Elbow, Silhouette, dan plot cluster).dplyrmenyediakan fungsi untuk manipulasi data sepertiselect,mutate,filter,summarise, dangroup_by.clusterdigunakan untuk melakukan analisis cluster, termasuk K-Means, hierarchical clustering, dan evaluasi jarak antar objek.tidyverseadalah kumpulan paket sepertidplyr,tidyr, danggplot2yang mempermudah proses transformasi dan pembersihan data.
3.2.2 Import Data
data_raw <- read_excel("D:/SEMESTER 5/ANALISIS MULTIVARIAT I/PRAKTIKUM/DATA_SARANA_KESEHATAN.xlsx")
# Hapus kolom provinsi (karena bukan numerik)
data <- data_raw[, -1]Penjelasan Syntax:
read_excel()membaca file Excel yang berisi data sarana kesehatan.- Karena kolom pertama berisi nama provinsi (bukan numerik), kolom tersebut tidak dapat digunakan dalam analisis cluster yang hanya menerima data numerik.
data_raw[, -1]menghapus kolom pertama, sehingga hanya variabel numerik yang digunakan.
3.2.3 Statistika Deskriptif
Penjelasan Syntax:
summary()memberikan ringkasan statistik untuk masing-masing variabel, seperti nilai minimum, maksimum, kuartil, dan median.- Digunakan untuk memahami gambaran awal distribusi data sebelum dilakukan analisis lebih lanjut.
3.2.4 Uji Asumsi Analisis Cluster
Uji Sampel Representatif
Penjelasan Syntax:
KMO()digunakan untuk menghitung nilai Kaiser-Meyer-Olkin sebagai uji kelayakan sampel sebelum dilakukan analisis multivariat.
Uji Non-Multikolinearitas
Penjelasan Syntax:
cor()digunakan untuk menghitung matriks korelasi sebagai langkah awal mendeteksi multikolinearitas antar variabel.method = "pearson"digunakan untuk menghitung korelasi Pearson. Hasilnya disimpan dalam objekVIFsebagai dasar evaluasi multikolinearitas.
3.2.5 Standarisasi Data
Penjelasan Syntax:
scale()melakukan standarisasi data sehingga setiap variabel memiliki mean = 0 dan standar deviasi = 1.- Standarisasi diperlukan karena K-Means sensitif terhadap perbedaan skala.
head(datastand)menampilkan beberapa baris awal hasil standarisasi.
3.2.6 Menentukan Jumlah Cluster Optimal
Metode Elbow
fviz_nbclust(datastand, kmeans, method = "wss") +
labs(title = "Elbow Method",
subtitle = "Menentukan Jumlah Cluster Optimal")Penjelasan Syntax:
fviz_nbclust()memvisualisasikan jumlah cluster optimal.- Opsi
method = "wss"menghitung Within-Cluster Sum of Squares. - Grafik Elbow menunjukkan titik tekuk (elbow) sebagai jumlah cluster terbaik.
Metode Silhoutte
fviz_nbclust(datastand, kmeans, method = "silhouette") +
labs(title = "Silhouette Method",
subtitle = "Validasi Jumlah Cluster Optimal")Penjelasan Syntax:
method = "silhouette"menghitung nilai Silhouette untuk berbagai jumlah cluster.- Semakin tinggi nilai Silhouette, semakin baik pemisahan antar cluster.
- Grafik membantu memvalidasi jumlah cluster yang dianggap optimal berdasarkan struktur data.
3.2.7 Analisis Cluster K-Means
k_optimal <- 2
set.seed(123)
kmeans_res <- kmeans(datastand,
centers = k_optimal,
nstart = 25)
# Jumlah anggota tiap cluster
table(kmeans_res$cluster)Penjelasan Syntax:
k_optimal <- 2menentukan jumlah cluster berdasarkan hasil Elbow & Silhouette.set.seed(123)digunakan agar hasil clustering konsisten setiap menjalankan kode.kmeans()melakukan proses pengelompokan K-Means:centers = k_optimal→ jumlah clusternstart = 25→ mencoba 25 titik awal berbeda untuk hasil yang stabil
table(kmeans_res$cluster)menampilkan jumlah anggota pada setiap cluster.
3.2.8 Visualisasi Cluster K-Means
fviz_cluster(kmeans_res, data = datastand,
ellipse.type = "euclid",
star.plot = TRUE,
repel = TRUE,
ggtheme = theme_minimal(),
main = "Visualisasi Cluster K-Means (Non-Hierarki)") +
coord_fixed()Penjelasan Syntax:
fviz_cluster()menampilkan visualisasi pengelompokan.ellipse.type = "euclid"menggambar batas cluster menggunakan jarak Euclidean.star.plot = TRUEmenghubungkan anggota cluster ke pusat cluster.repel = TRUEmenghindari tumpang tindih label.coord_fixed()menjaga rasio sumbu agar proporsional.
4 HASIL DAN PEMBAHASAN
4.1 Statistika Deskriptif
Rumah Sakit Rumah Sakit Bersalin Poliklinik Puskesmas
Min. : 10.00 Min. : 2.00 Min. : 15.00 Min. : 59.0
1st Qu.: 24.00 1st Qu.: 25.25 1st Qu.: 51.75 1st Qu.: 174.0
Median : 40.00 Median : 70.00 Median : 105.50 Median : 244.0
Mean : 68.21 Mean : 188.44 Mean : 248.56 Mean : 318.2
3rd Qu.: 63.25 3rd Qu.: 194.25 3rd Qu.: 221.25 3rd Qu.: 383.8
Max. :317.00 Max. :1245.00 Max. :1670.00 Max. :1170.0
Puskesmas Pembantu Apotek
Min. : 3.0 Min. : 47.0
1st Qu.: 373.5 1st Qu.: 103.5
Median : 605.5 Median : 192.5
Mean : 769.5 Mean : 356.0
3rd Qu.:1015.2 3rd Qu.: 323.8
Max. :2338.0 Max. :2068.0
Hasil statistika deskriptif menunjukkan bahwa setiap jenis sarana kesehatan memiliki variasi yang cukup besar antarprovinsi. Rumah Sakit memiliki sebaran dari 10 hingga 317 unit, sedangkan Rumah Sakit Bersalin bervariasi lebih ekstrem (2 hingga 1.245 unit), menunjukkan ketimpangan penyediaan layanan kesehatan ibu dan anak. Fasilitas seperti Poliklinik, Puskesmas, dan Puskesmas Pembantu juga menunjukkan rentang yang lebar, menandakan adanya perbedaan kemampuan pelayanan dasar antarwilayah. Sementara itu, Apotek memiliki jumlah yang cukup bervariasi (47 hingga 2.068), mencerminkan perbedaan akses obat dan layanan farmasi antarprovinsi. Secara keseluruhan, seluruh variabel menunjukkan perbedaan signifikan antarprovinsi sehingga analisis cluster layak dilakukan untuk mengelompokkan wilayah berdasarkan kesamaan penyediaan sarana kesehatan.
4.2 Uji Asumsi Analisis Cluster
Uji Sampel Representatif
Kaiser-Meyer-Olkin factor adequacy
Call: KMO(r = data)
Overall MSA = 0.9
MSA for each item =
Rumah Sakit Rumah Sakit Bersalin Poliklinik
0.94 0.91 0.92
Puskesmas Puskesmas Pembantu Apotek
0.86 0.84 0.94
Nilai Overall MSA = 0,90, berada pada kategori sangat baik (meritorious). Ini menunjukkan bahwa pola korelasi antar variabel sangat memadai untuk dilakukan analisis multivariat, termasuk analisis cluster.
Nilai MSA per variabel (0,84–0,94) juga berada di atas 0,80, menandakan bahwa semua variabel (Rumah Sakit, Rumah Sakit Bersalin, Poliklinik, Puskesmas, Puskesmas Pembantu, dan Apotek) memiliki kecukupan sampel yang sangat baik dan layak untuk dimasukkan dalam analisis.
Maka dari itu data sangat layak digunakan untuk analisis cluster karena kecukupan sampel tinggi dan struktur korelasi antar variabel mendukung pembentukan kelompok.
Uji Non-Multikolinearitas
Rumah Sakit Rumah Sakit Bersalin Poliklinik Puskesmas
Rumah Sakit 1.0000000 0.9618700 0.9565052 0.9330942
Rumah Sakit Bersalin 0.9618700 1.0000000 0.9690787 0.9342288
Poliklinik 0.9565052 0.9690787 1.0000000 0.9284192
Puskesmas 0.9330942 0.9342288 0.9284192 1.0000000
Puskesmas Pembantu 0.7934684 0.7834446 0.7714473 0.8998482
Apotek 0.9600062 0.9589805 0.9499034 0.9235252
Puskesmas Pembantu Apotek
Rumah Sakit 0.7934684 0.9600062
Rumah Sakit Bersalin 0.7834446 0.9589805
Poliklinik 0.7714473 0.9499034
Puskesmas 0.8998482 0.9235252
Puskesmas Pembantu 1.0000000 0.7967605
Apotek 0.7967605 1.0000000
Hasil korelasi menunjukkan bahwa semua variabel memiliki korelasi sangat tinggi (0,77–0,97). Korelasi sebesar ini menunjukkan bahwa pola peningkatan fasilitas kesehatan antar provinsi cenderung bergerak searah.
Walaupun korelasi tinggi pada regresi dapat menandakan multikolinearitas, pada analisis cluster kondisi ini tidak menjadi masalah, bahkan justru umum terjadi karena variabel menggambarkan fenomena yang saling terkait.
Variabel memiliki hubungan yang kuat satu sama lain, namun hal ini tidak mengganggu proses clustering. Data tetap dapat digunakan, dan korelasi tinggi justru membantu dalam mengelompokkan provinsi berdasarkan kemiripan fasilitas kesehatan.
4.3 Standarisasi Data
Setelah dilakukan proses standarisasi menggunakan metode z-score, seluruh variabel kini berada pada skala yang sama, yaitu memiliki rata-rata 0 dan standar deviasi 1. Proses ini penting untuk mencegah variabel dengan nilai besar (misalnya Puskesmas Pembantu atau Apotek) mendominasi perhitungan jarak dalam analisis clustering. Dengan data yang sudah distandarisasi, setiap variabel berkontribusi secara proporsional terhadap pembentukan cluster, sehingga hasil pengelompokan menjadi lebih objektif dan akurat.
4.4 Menentukan Jumlah Cluster Optimal
Berdasarkan Elbow Method, terlihat bahwa penurunan nilai Within-Cluster Sum of Squares (WSS) mulai melambat secara signifikan setelah k = 2, sehingga titik siku (elbow) berada pada cluster ke-2. Artinya, pembentukan dua cluster sudah cukup mewakili struktur data tanpa peningkatan kualitas yang berarti jika jumlah cluster ditambah.
Sementara itu, Silhouette Method menunjukkan nilai average silhouette width tertinggi juga pada k = 2 dengan nilai mendekati 0,8. Nilai ini menandakan bahwa pemisahan antar cluster sangat jelas, serta anggota dalam cluster cukup kompak dan seragam.
Dengan demikian, kedua metode menunjukkan hasil yang konsisten, yaitu jumlah cluster optimal adalah 2, karena memberikan pemisahan terbaik dan struktur pengelompokan yang paling stabil.
4.5 Analisis Cluster K-Means
| Cluster | Anggota Cluster |
|---|---|
| 1 | ACEH, SUMATERA BARAT, RIAU, JAMBI, SUMATERA SELATAN, BENGKULU, LAMPUNG, KEP. BANGKA BELITUNG, KEP. RIAU, DKI JAKARTA, DI YOGYAKARTA, BANTEN, BALI, NUSA TENGGARA BARAT, NUSA TENGGARA TIMUR, KALIMANTAN BARAT, KALIMANTAN TENGAH, KALIMANTAN SELATAN, KALIMANTAN TIMUR, KALIMANTAN UTARA, SULAWESI UTARA, SULAWESI TENGAH, SULAWESI SELATAN, SULAWESI TENGGARA, GORONTALO, SULAWESI BARAT, MALUKU, MALUKU UTARA, PAPUA BARAT, PAPUA |
| 2 | SUMATERA UTARA, JAWA BARAT, JAWA TENGAH, JAWA TIMUR |
Berdasarkan hasil pengelompokan K-Means dengan k = 2, provinsi di Indonesia terbagi menjadi dua kelompok utama:
- Cluster 1: Provinsi dengan penyediaan fasilitas kesehatan lebih
tinggi
- Provinsi dalam kelompok ini memiliki jumlah fasilitas kesehatan yang lebih besar secara rata-rata (rumah sakit, puskesmas, poliklinik, apotek, dan fasilitas lain).
- Umumnya merupakan provinsi dengan populasi besar atau wilayah luas, sehingga kebutuhan dan distribusi sarana kesehatan juga lebih tinggi.
- Fasilitas kesehatan di provinsi-provinsi ini lebih merata dan terdistribusi dibanding cluster lainnya.
- Cluster 2: Provinsi dengan penyediaan fasilitas lebih rendah
- Meskipun provinsi-provinsi ini memiliki populasi terbesar di Indonesia, jumlah fasilitasnya lebih rendah relatif terhadap ukuran penduduk, sehingga muncul sebagai cluster tersendiri.
- Ini menunjukkan bahwa rasio fasilitas kesehatan terhadap jumlah penduduk pada provinsi ini lebih rendah dibanding provinsi dalam cluster 1.
- Kondisi ini menggambarkan adanya potensi kekurangan fasilitas kesehatan jika dilihat per desa/kelurahan.
4.6 Visualisasi Cluster K-Means
Berdasarkan visualisasi hasil K-Means, terlihat bahwa provinsi-provinsi terbagi menjadi dua kelompok yang terpisah dengan cukup jelas. Cluster 1 (warna merah) berisi mayoritas provinsi yang terkumpul di area dengan nilai koordinat relatif rendah, menggambarkan bahwa kelompok ini memiliki jumlah fasilitas kesehatan (Rumah Sakit, Puskesmas, Poliklinik, dan lainnya) yang cenderung lebih sedikit atau berada pada tingkat penyediaan menengah ke bawah. Sebaliknya, Cluster 2 (warna biru) terdiri dari provinsi yang posisinya berada jauh dari kelompok pertama dengan nilai dimensi yang lebih tinggi, menunjukkan bahwa provinsi-provinsi ini memiliki penyediaan fasilitas kesehatan yang jauh lebih banyak dibanding cluster lainnya. Bentuk ellips yang saling terpisah dengan jarak cukup lebar menandakan bahwa kedua cluster memiliki karakteristik yang sangat berbeda dan pemisahan cluster sudah terbentuk dengan baik.
5 KESIMPULAN DAN SARAN
5.1 Kesimpulan
Berdasarkan hasil analisis cluster non-hierarki metode K-Means terhadap data sarana kesehatan provinsi di Indonesia, diperoleh beberapa poin penting sebagai berikut:
- Jumlah cluster optimal adalah 2, yang ditentukan berdasarkan metode Elbow dan Silhouette. Nilai Silhouette tertinggi (≈0,78) menunjukkan bahwa pembagian dua cluster memberikan pemisahan yang paling jelas dan kompak.
- Cluster 1 berisi sebagian besar provinsi di Indonesia. Provinsi dalam kelompok ini memiliki jumlah sarana kesehatan relatif rendah hingga sedang, seperti rumah sakit, poliklinik, puskesmas, puskesmas pembantu, dan apotek. Kondisi ini menunjukkan bahwa pemerataan fasilitas kesehatan di wilayah tersebut masih perlu ditingkatkan.
- Cluster 2 berisi provinsi dengan jumlah fasilitas kesehatan jauh lebih tinggi, mencerminkan akses dan ketersediaan layanan kesehatan yang lebih baik. Provinsi dalam cluster ini umumnya merupakan wilayah berpenduduk besar atau pusat ekonomi sehingga kebutuhan dan pembangunan fasilitas kesehatannya lebih maju.
- Visualisasi cluster menunjukkan pemisahan yang jelas antara kedua kelompok, mengindikasikan bahwa karakteristik penyediaan fasilitas kesehatan antarprovinsi memang berbeda signifikan.
Secara keseluruhan, analisis K-Means berhasil mengelompokkan provinsi berdasarkan pola penyediaan fasilitas kesehatan, sehingga dapat dimanfaatkan untuk memetakan kebutuhan pembangunan layanan kesehatan antarwilayah.
5.2 Saran
- Perlu pemerataan pembangunan fasilitas kesehatan terutama di provinsi dalam Cluster 1, karena kelompok ini menunjukkan keterbatasan akses terhadap layanan kesehatan dasar maupun lanjutan.
- Pemerintah daerah dan pusat dapat menjadikan hasil cluster ini sebagai bahan prioritas alokasi anggaran, misalnya pembangunan puskesmas, penyediaan tenaga kesehatan, dan fasilitas pendukung di wilayah yang termasuk cluster rendah.
- Untuk penelitian selanjutnya, disarankan:
- Menambahkan variabel kualitas layanan kesehatan (jumlah tenaga medis, rasio tempat tidur, dll.).
- Menggunakan metode clustering lain seperti Hierarchical, DBSCAN, atau Fuzzy C-Means sebagai pembanding.
- Menggabungkan data beberapa tahun untuk melihat perubahan pola cluster secara temporal.
- Sistem informasi kesehatan daerah dapat memanfaatkan hasil pengelompokan ini untuk monitoring dan evaluasi rencana strategis, sehingga pemerataan akses kesehatan dapat lebih terstruktur.
6 DAFTAR PUSTAKA
Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2010). Multivariate data analysis (7th ed.). Pearson.
Johnson, R. A., & Wichern, D. W. (2007). Applied multivariate statistical analysis (6th ed.). Pearson.
Kaufman, L., & Rousseeuw, P. J. (2009). Finding groups in data: An introduction to cluster analysis. Wiley.
Kementerian Kesehatan Republik Indonesia. (2023). Profil kesehatan Indonesia 2022. Kemenkes RI.
Ketchen, D. J., & Shook, C. L. (1996). The application of cluster analysis in strategic management research: An analysis and critique. Strategic Management Journal, 17(6), 441–458.
MacQueen, J. (1967). Some methods for classification and analysis of multivariate observations. Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, 281–297.
Rosyidah, E., Widodo, T., & Handayani, S. (2019). Analisis faktor menggunakan pendekatan KMO dan Bartlett’s Test. Jurnal Statistika Universitas Muhammadiyah Semarang, 7(2), 45–52.
Rousseeuw, P. J. (1987). Silhouettes: A graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics, 20, 53–65.
Triola, M. F. (2018). Elementary statistics (13th ed.). Pearson.
Ulfah, N., & Lestari, D. (2021). Uji kelayakan data menggunakan KMO dan Bartlett untuk analisis multivariat. Jurnal Sains Matematika dan Statistika, 12(1), 12–20.
Walpole, R. E., Myers, R. H., Myers, S. L., & Ye, K. (2017). Probability and statistics for engineers and scientists (9th ed.). Pearson.