PENDAHULUAN

1.1 Latar Belakang Kasus

Ketersediaan fasilitas kesehatan merupakan salah satu indikator penting dalam menilai pemerataan layanan kesehatan di Indonesia. Setiap provinsi memiliki jumlah dan jenis fasilitas kesehatan yang berbeda-beda, seperti rumah sakit, puskesmas, poliklinik, apotek, hingga puskesmas pembantu. Variasi ini mencerminkan kondisi infrastruktur kesehatan serta kemampuan daerah dalam menyediakan akses kesehatan dasar bagi masyarakatnya.

Data yang digunakan pada analisis ini adalah data jumlah fasilitas kesehatan per provinsi yang meliputi enam variabel utama, yaitu Rumah Sakit, Rumah Sakit Bersalin, Poliklinik, Puskesmas, Puskesmas Pembantu, dan Apotek. Data tersebut diambil dari publikasi resmi Badan Pusat Statistik (BPS) dan mencakup seluruh provinsi di Indonesia.

Perbedaan jumlah fasilitas antarprovinsi ini perlu dianalisis untuk melihat pola kemiripan dan pengelompokannya. Dengan demikian dapat diperoleh gambaran mengenai kelompok provinsi yang memiliki karakteristik infrastruktur kesehatan yang serupa.


1.2 Rumusan Masalah

Berdasarkan data jumlah fasilitas kesehatan di setiap provinsi di Indonesia, terdapat perbedaan yang cukup besar dalam ketersediaan layanan kesehatan antarwilayah. Untuk memahami pola tersebut, dibutuhkan metode pengelompokan yang mampu mengidentifikasi provinsi-provinsi dengan karakteristik yang serupa. Oleh karena itu, rumusan masalah dalam analisis ini adalah:

  1. Bagaimana pengelompokan provinsi di Indonesia berdasarkan jumlah fasilitas kesehatan yang dimiliki?
  2. Apakah analisis klaster hierarki dengan jarak Euclidean dan metode average linkage mampu memberikan struktur klaster yang jelas dan interpretatif pada data ini?
  3. Klaster mana saja yang menunjukkan kemiripan tingkat ketersediaan fasilitas kesehatan?

1.3 Tujuan

Tujuan dari analisis ini adalah:

  1. Mengelompokkan provinsi di Indonesia berdasarkan karakteristik jumlah fasilitas kesehatan menggunakan analisis klaster hierarki.
  2. Menilai kesesuaian penggunaan jarak Euclidean dan metode penggabungan average linkage pada data fasilitas kesehatan.
  3. Menghasilkan klaster yang dapat memberikan gambaran mengenai provinsi-provinsi yang memiliki tingkat ketersediaan fasilitas kesehatan yang serupa serta potensi kesenjangan antarwilayah.

1.4 Deskripsi Data

Data yang digunakan pada analisis ini berasal dari Badan Pusat Statistik (BPS) melalui tabel “Number of Villages/Sub-Districts Having Health Facilities by Province”.
Data ini mencakup 38 provinsi di Indonesia dan memuat informasi mengenai jumlah fasilitas kesehatan yang tersedia pada setiap provinsi.

Setiap provinsi memiliki enam variabel utama sebagai berikut:

  • Rumah Sakit
    Menunjukkan jumlah rumah sakit umum maupun khusus di suatu provinsi.

  • Rumah Sakit Bersalin
    Fasilitas layanan kesehatan khusus persalinan dan kesehatan ibu-anak.

  • Poliklinik
    Jumlah fasilitas pelayanan rawat jalan yang menyediakan berbagai layanan medis dasar.

  • Puskesmas
    Pusat Kesehatan Masyarakat sebagai layanan kesehatan primer yang tersebar di wilayah kecamatan/desa.

  • Puskesmas Pembantu
    Unit layanan kesehatan yang merupakan perpanjangan dari Puskesmas, biasanya terdapat di wilayah yang lebih terpencil.

  • Apotek
    Jumlah apotek yang menyediakan pelayanan kefarmasian dan distribusi obat-obatan.

Data ini menggambarkan variasi ketersediaan fasilitas kesehatan antarprovinsi di Indonesia. Perbedaan inilah yang kemudian dianalisis menggunakan analisis klaster untuk mengidentifikasi kelompok provinsi dengan karakteristik fasilitas kesehatan yang serupa.

Sumber data: BPS – https://www.bps.go.id/id/statistics-table/2/MjMzIzI=/number-of-villages-sub-districts-having-health-facilities-by-province.html


1.5 Cuplikan Data

Berikut merupakan cuplikan data fasilitas kesehatan per provinsi di Indonesia yang digunakan dalam analisis:

Cuplikan Data Fasilitas Kesehatan per Provinsi
Provinsi Rumah_Sakit Rumah_Sakit_Bersalin Poliklinik Puskesmas Puskesmas_Pembantu Apotek
ACEH 64 225 258 395 971 346
SUMATERA UTARA 199 441 800 661 1887 740
SUMATERA BARAT 54 139 127 294 721 257
RIAU 55 207 329 272 1033 351
JAMBI 36 151 103 231 654 211
SUMATERA SELATAN 65 248 195 403 935 244

1.6 Latar Belakang Metode

Analisis klaster merupakan metode statistik yang digunakan untuk mengelompokkan objek berdasarkan tingkat kemiripan karakteristiknya. Salah satu pendekatan yang banyak digunakan adalah analisis klaster hierarki, karena mampu menggambarkan struktur pengelompokan secara bertahap melalui dendrogram.

Dalam analisis klaster hierarki, ukuran kemiripan antar objek ditentukan melalui perhitungan jarak. Beberapa ukuran jarak yang umum digunakan antara lain: - Euclidean Distance, mengukur jarak garis lurus antar objek dan paling sering digunakan terutama untuk data kontinu. - Manhattan Distance, menghitung jarak berdasarkan penjumlahan selisih absolut antar variabel. - Mahalanobis Distance, mempertimbangkan korelasi antar variabel dalam perhitungan jarak.

Namun untuk kasus ini digunakan jarak Euclidean karena sesuai untuk mengukur perbedaan tingkat fasilitas kesehatan antarprovinsi yang bersifat numerik dan berbeda skala namun masih dapat distandardisasi.

Selain jarak, metode klaster hierarki juga memerlukan teknik penggabungan (linkage). Beberapa jenis linkage yang umum digunakan yaitu: - Single Linkage (jarak minimum) - Complete Linkage (jarak maksimum) - Average Linkage (rata-rata jarak antar anggota klaster) - Ward’s Method (minimisasi varians dalam klaster)

Pada analisis ini digunakan Average Linkage, karena metode ini cenderung menghasilkan klaster yang lebih stabil dan tidak terlalu sensitif terhadap outlier. Average linkage menghitung rata-rata jarak antar seluruh pasangan objek dalam dua klaster sehingga memberikan hasil pengelompokan yang lebih seimbang.

Penggunaan jarak Euclidean dan average linkage diharapkan mampu memberikan struktur klaster yang jelas pada data fasilitas kesehatan antarprovinsi.


TINJAUAN PUSTAKA

2.1 Statistika Deskriptif

Statistika Deskriptif adalah metode dalam statistika yang bertugas untuk mengumpulkan, mengolah, meringkas, dan menyajikan data guna memberikan gambaran atau deskripsi yang informatif mengenai data tersebut tanpa menarik kesimpulan yang berlaku umum untuk populasi (inferensi). Fokus utamanya adalah pada data yang tersedia saat ini.

Ukuran Sentral dan Variabilitas

Statistika deskriptif menggunakan Ukuran Tendensi Sentral (seperti Mean, Median, Modus) dan Ukuran Variabilitas (seperti Varian dan Standar Deviasi) untuk merangkum karakteristik data.

Rumus Rata-rata (Mean)

Rata-rata hitung (\(\bar{x}\)) untuk sampel dihitung sebagai berikut: \[ \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i \] di mana: * \(x_i\) adalah nilai observasi ke-i. * \(n\) adalah jumlah observasi.


2.2 Analisis Klaster Hierarki

Analisis Klaster (Cluster Analysis) adalah teknik statistik multivariat yang bertujuan mengelompokkan objek (observasi, variabel, dll.) berdasarkan kesamaan karakteristik mereka. Objek dalam satu klaster harus memiliki homogenitas yang tinggi (kesamaan internal), sementara klaster yang berbeda harus memiliki heterogenitas yang tinggi (perbedaan eksternal).

Analisis Klaster Hierarki (Hierarchical Cluster Analysis - HCA) adalah metode klaster yang membangun struktur klaster berupa pohon secara bertahap.

Tipe Analisis Klaster Hierarki

  1. Aglomeratif (Bottom-up): Dimulai dengan setiap objek sebagai klaster individu, kemudian menggabungkan klaster yang paling dekat hingga semua objek berada dalam satu klaster.
  2. Divisif (Top-down): Dimulai dengan semua objek dalam satu klaster, kemudian membagi klaster tersebut hingga setiap objek menjadi klaster individu.

2.3 Jarak (Distance / Dissimilarity)

Konsep Jarak (atau Dissimilarity) adalah fondasi dari analisis klaster. Jarak mengukur seberapa tidak sama (berbeda) dua objek satu sama lain. Semakin kecil jaraknya, semakin besar kesamaannya, dan semakin besar kemungkinan kedua objek tersebut digabungkan menjadi satu klaster.

Rumus Jarak Euclidean

Jarak Euclidean adalah metrik jarak yang paling umum digunakan dalam HCA. Jarak Euclidean antara dua objek \(x\) dan \(y\) dalam ruang \(p\)-dimensi dihitung sebagai akar kuadrat dari jumlah perbedaan kuadrat antara koordinat mereka:

\[ d(x, y) = \sqrt{\sum_{j=1}^{p} (x_j - y_j)^2} \] di mana: * \(x\) dan \(y\) adalah dua objek. * \(x_j\) dan \(y_j\) adalah nilai variabel ke-\(j\) untuk objek \(x\) dan \(y\). * \(p\) adalah jumlah variabel.


2.4 Metode Penggabungan (Linkage)

Linkage (Metode Penggabungan) adalah aturan yang digunakan untuk menghitung jarak antara dua klaster yang sudah terbentuk, bukan hanya jarak antar-objek tunggal. Pilihan metode linkage sangat memengaruhi bentuk dan komposisi klaster yang dihasilkan.

Rumus Metode Linkage (Jarak antara Klaster \(K_i\) dan \(K_j\))

Metode Linkage Deskripsi Rumus
Single Linkage Jarak minimum antara anggota klaster \(K_i\) dan \(K_j\). \[D(K_i, K_j) = \min_{x \in K_i, y \in K_j} d(x, y)\]
Complete Linkage Jarak maksimum antara anggota klaster \(K_i\) dan \(K_j\). \[D(K_i, K_j) = \max_{x \in K_i, y \in K_j} d(x, y)\]
Average Linkage Rata-rata jarak antara semua pasangan anggota klaster \(K_i\) dan \(K_j\). \[D(K_i, K_j) = \frac{1}{n_i n_j} \sum_{x \in K_i} \sum_{y \in K_j} d(x, y)\]
Ward’s Method Menggabungkan pasangan klaster yang menghasilkan peningkatan varian dalam klaster (Sum of Squares Error - SSE) paling minimal. Ward’s method meminimalkan kenaikan SSE ketika \(K_i\) dan \(K_j\) digabungkan menjadi \(K_{ij}\): $ = | {x}_i - {x}_j |^2$

Keterangan: \(d(x, y)\) adalah jarak antar-objek (misalnya Euclidean), \(n_i\) dan \(n_j\) adalah jumlah objek dalam klaster \(K_i\) dan \(K_j\), dan \(\bar{x}_i\) dan \(\bar{x}_j\) adalah pusat klaster.


2.5 Dendrogram

Dendrogram adalah diagram berbentuk pohon yang digunakan untuk memvisualisasikan hasil dari Analisis Klaster Hierarki.

[Image of a dendrogram showing hierarchical clustering]

Interpretasi Dendrogram

  • Sumbu Horizontal (x-axis): Mewakili objek yang dikelasterkan (observasi atau data).
  • Sumbu Vertikal (y-axis): Mewakili tingkat jarak (atau dissimilarity) saat klaster digabungkan.
  • Cabang: Setiap cabang mewakili sebuah klaster. Titik di mana cabang-cabang bergabung menunjukkan tingkat jarak (tinggi vertikal) pada saat dua klaster tersebut disatukan.

Prinsip Inti: Klaster yang bergabung pada tingkat jarak vertikal yang rendah (dekat dengan dasar dendrogram) menunjukkan bahwa objek-objek di dalamnya sangat mirip. Sebaliknya, klaster yang bergabung pada tingkat jarak yang tinggi menunjukkan bahwa mereka sangat berbeda. Penentuan jumlah klaster optimal dilakukan dengan memotong dendrogram pada ketinggian tertentu.


SOURCE CODE

4.1 Library yang Dibutuhkan

Berikut adalah library atau paket yang digunakan dalam proses analisis, beserta kegunaannya:

Library Kegunaan Singkat
readxl Digunakan untuk mengimpor data dari file Excel. (Diasumsikan data awal dari Excel)
tidyverse Kumpulan paket yang mempermudah manipulasi, eksplorasi, dan visualisasi data, termasuk dplyr untuk operasi data.
cluster Paket utama yang menyediakan fungsi untuk analisis klaster (misalnya, fungsi agnes untuk klaster hierarki).
factoextra Digunakan untuk visualisasi hasil analisis multivariat, termasuk dendrogram yang disempurnakan dan visualisasi silhouette.
dendextend Memperkaya dan memodifikasi visualisasi dendrogram.
clValid Digunakan untuk validasi hasil klastering, termasuk perhitungan Dunn Index.
openxlsx Digunakan untuk mengekspor hasil klaster kembali ke format Excel.
# Tampilkan seluruh library yang dibutuhkan
library(readxl)
library(tidyverse)
library(cluster)
library(factoextra)
library(dendextend)
library(clValid)
library(openxlsx)

4.2 Source code

4.2.1 Import Data dan Statistika Deskriptif

Data diimpor langsung dari file path lokal Anda. Kolom ‘Provinsi’ ditetapkan sebagai nama baris (rownames). Fungsi summary() digunakan untuk melihat statistik dasar data mentah.

# Import data dari file Excel menggunakan jalur yang diberikan
data_kesehatan <- read_excel("C:\\Users\\cielo\\Downloads\\DATA_SARANA_KESEHATAN.xlsx")
# Menetapkan kolom 'Provinsi' sebagai nama baris dan menghapus kolom tersebut
data_klaster <- data_kesehatan %>%
  column_to_rownames(var = "Provinsi")

# Tampilkan statistika deskriptif (ringkasan data)
cat("Statistika Deskriptif (Ringkasan Data Mentah):\n")
## Statistika Deskriptif (Ringkasan Data Mentah):
summary(data_klaster)
##   Rumah Sakit     Rumah Sakit Bersalin   Poliklinik        Puskesmas     
##  Min.   : 10.00   Min.   :   2.00      Min.   :  15.00   Min.   :  59.0  
##  1st Qu.: 24.00   1st Qu.:  25.25      1st Qu.:  51.75   1st Qu.: 174.0  
##  Median : 40.00   Median :  70.00      Median : 105.50   Median : 244.0  
##  Mean   : 68.21   Mean   : 188.44      Mean   : 248.56   Mean   : 318.2  
##  3rd Qu.: 63.25   3rd Qu.: 194.25      3rd Qu.: 221.25   3rd Qu.: 383.8  
##  Max.   :317.00   Max.   :1245.00      Max.   :1670.00   Max.   :1170.0  
##  Puskesmas Pembantu     Apotek      
##  Min.   :   3.0     Min.   :  47.0  
##  1st Qu.: 373.5     1st Qu.: 103.5  
##  Median : 605.5     Median : 192.5  
##  Mean   : 769.5     Mean   : 356.0  
##  3rd Qu.:1015.2     3rd Qu.: 323.8  
##  Max.   :2338.0     Max.   :2068.0

4.2.2 Standarisasi Data

Data ditransformasikan menggunakan Z-score (scale()) untuk memastikan semua variabel memiliki bobot yang setara dalam perhitungan jarak.

# Standarisasi Data (Z-score)
data_skala <- scale(data_klaster)

# Tampilkan ringkasan data setelah standarisasi
cat("\nRingkasan Data setelah Standarisasi (Z-score):\n")
## 
## Ringkasan Data setelah Standarisasi (Z-score):
summary(data_skala)
##   Rumah Sakit       Rumah Sakit Bersalin   Poliklinik         Puskesmas      
##  Min.   :-0.72844   Min.   :-0.60534     Min.   :-0.61046   Min.   :-0.9806  
##  1st Qu.:-0.55323   1st Qu.:-0.52985     1st Qu.:-0.51441   1st Qu.:-0.5456  
##  Median :-0.35299   Median :-0.38456     Median :-0.37392   Median :-0.2808  
##  Mean   : 0.00000   Mean   : 0.00000     Mean   : 0.00000   Mean   : 0.0000  
##  3rd Qu.:-0.06202   3rd Qu.: 0.01886     3rd Qu.:-0.07138   3rd Qu.: 0.2478  
##  Max.   : 3.11362   Max.   : 3.43045     Max.   : 3.71526   Max.   : 3.2218  
##  Puskesmas Pembantu     Apotek        
##  Min.   :-1.3876    Min.   :-0.61090  
##  1st Qu.:-0.7169    1st Qu.:-0.49921  
##  Median :-0.2969    Median :-0.32327  
##  Mean   : 0.0000    Mean   : 0.00000  
##  3rd Qu.: 0.4449    3rd Qu.:-0.06381  
##  Max.   : 2.8395    Max.   : 3.38430

4.2.3 Perhitungan Jarak dan Analisis Klaster Hierarki

Perhitungan matriks jarak menggunakan Jarak Euclidean pada data yang telah distandarisasi, dan klastering dilakukan dengan Average Linkage.

# Hitung matriks jarak dengan metode Euclidean
jarak_euclidean <- dist(data_skala, method = "euclidean")

# Tampilkan 5x5 matriks jarak pertama sebagai contoh
print("Contoh 5x5 Matriks Jarak Euclidean:")
## [1] "Contoh 5x5 Matriks Jarak Euclidean:"
as.matrix(jarak_euclidean)[1:5, 1:5]
##                     ACEH SUMATERA UTARA SUMATERA BARAT      RIAU     JAMBI
## ACEH           0.0000000       3.117994      0.7698021 0.5288550 1.0630143
## SUMATERA UTARA 3.1179936       0.000000      3.8266061 3.2383499 4.1337649
## SUMATERA BARAT 0.7698021       3.826606      0.0000000 0.8295376 0.3687328
## RIAU           0.5288550       3.238350      0.8295376 0.0000000 1.0049482
## JAMBI          1.0630143       4.133765      0.3687328 1.0049482 0.0000000
# Terapkan Analisis Klaster Hierarki dengan Linkage Average
klaster_avg <- agnes(jarak_euclidean, method = "average")

# Tampilkan ringkasan hasil klaster
print("Ringkasan Hasil Klaster Hierarki:")
## [1] "Ringkasan Hasil Klaster Hierarki:"
klaster_avg
## Call:     agnes(x = jarak_euclidean, method = "average") 
## Agglomerative coefficient:  0.9079701 
## Order of objects:
##  [1] ACEH                 LAMPUNG              SUMATERA SELATAN    
##  [4] RIAU                 NUSA TENGGARA TIMUR  PAPUA               
##  [7] KALIMANTAN TENGAH    SULAWESI SELATAN     SUMATERA BARAT      
## [10] JAMBI                KALIMANTAN TIMUR     SULAWESI TENGAH     
## [13] KALIMANTAN BARAT     BENGKULU             PAPUA BARAT         
## [16] MALUKU               BALI                 NUSA TENGGARA BARAT 
## [19] KALIMANTAN SELATAN   SULAWESI UTARA       SULAWESI TENGGARA   
## [22] KEP. BANGKA BELITUNG KALIMANTAN UTARA     KEP. RIAU           
## [25] GORONTALO            MALUKU UTARA         SULAWESI BARAT      
## [28] DI YOGYAKARTA        DKI JAKARTA          BANTEN              
## [31] SUMATERA UTARA       JAWA BARAT           JAWA TENGAH         
## [34] JAWA TIMUR          
## Height (summary):
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.1632  0.2655  0.4611  0.9281  1.0293  6.8192 
## 
## Available components:
## [1] "order"     "height"    "ac"        "merge"     "diss"      "call"     
## [7] "method"    "order.lab"

4.2.4 Dendrogram

Dendrogram digambar. Untuk tujuan visualisasi, ditentukan \(k=3\) klaster, di mana klaster ditandai dengan kotak berwarna.

# Konversi hasil klaster ke objek dendrogram
dendrogram <- as.dendrogram(klaster_avg)

# Penentuan klaster (misalnya k=3)
k_klaster <- 3
dendrogram_k3 <- cutree(dendrogram, k = k_klaster)

# Visualisasi Dendrogram
fviz_dend(klaster_avg, k = k_klaster, 
          cex = 0.8,         # Ukuran label
          main = paste("Dendrogram Klaster (k =", k_klaster, ") - Euclidean & Average"),
          palette = "jco",
          rect = TRUE, rect_border = "jco", rect_fill = TRUE)


4.2.5 Evaluasi Hasil Klaster

Evaluasi validitas klaster dilakukan untuk menilai kualitas dan reliabilitas pengelompokan yang terbentuk (dengan asumsi klaster optimal \(k=3\) dari hasil visualisasi dendrogram). Metrik yang digunakan meliputi Koefisien Korelasi Kofenetik, Koefisien Silhouette, dan Dunn Index.

A. Koefisien Korelasi Kofenetik (Cophenetic Correlation)

Koefisien Korelasi Kofenetik (CCC) mengukur seberapa baik struktur hierarki yang dihasilkan (dendrogram) merepresentasikan matriks jarak asli. Nilai yang mendekati 1 menunjukkan fit yang sangat baik.

# Hitung Cophenetic Correlation Coefficient (CCC)
cophenetic_corr <- cor(jarak_euclidean, cophenetic(klaster_avg))

cat("Koefisien Korelasi Kofenetik (CCC): ", round(cophenetic_corr, 4), "\n")
## Koefisien Korelasi Kofenetik (CCC):  0.9416

B. Koefisien Silhouette

Koefisien Silhouette mengukur seberapa baik setiap objek cocok dengan klasternya sendiri dibandingkan dengan klaster tetangga. Rata-rata silhouette mendekati 1 menunjukkan klaster yang padat (compact) dan terpisah dengan baik (separated).

Rumus Koefisien Silhouette untuk objek \(i\) (\(s_i\)) didefinisikan sebagai: \[ s_i = \frac{b_i - a_i}{\max(a_i, b_i)} \] di mana \(a_i\) adalah rata-rata jarak objek \(i\) ke semua objek lain dalam klaster yang sama, dan \(b_i\) adalah rata-rata jarak objek \(i\) ke objek dalam klaster tetangga terdekat.

# Hitung dan visualisasi Koefisien Silhouette untuk k=3
# Variabel 'dendrogram_k3' berisi hasil cutree untuk k=3
sil_coef <- silhouette(dendrogram_k3, jarak_euclidean)

# Tampilkan rata-rata silhouette
cat("Rata-rata Koefisien Silhouette untuk k=3: ", round(mean(sil_coef[, 3]), 4), "\n")
## Rata-rata Koefisien Silhouette untuk k=3:  0.6725
# Visualisasi Silhouette
fviz_silhouette(sil_coef)
##   cluster size ave.sil.width
## 1       1   30          0.71
## 2       2    1          0.00
## 3       3    3          0.54

C. Dunn Index

Dunn Index mengukur rasio antara jarak inter-klaster minimum (pemisahan antar-klaster) dan diameter intra-klaster maksimum (kekompakan klaster). Metrik ini bertujuan untuk mencari klaster yang terpisah jauh (inter-klaster besar) dan padat (intra-klaster kecil).

Nilai Dunn Index yang lebih tinggi menunjukkan klaster yang lebih optimal dan valid.

Rumus Dunn Index (\(D\)) adalah: \[ D = \frac{\min_{i \ne j} \min_{x \in K_i, y \in K_j} d(x, y)}{\max_{k} \max_{x \in K_k, y \in K_k} d(x, y)} \] Di mana: * Pembilang (\(\min\) inter-klaster) adalah jarak minimum antar dua klaster (menggambarkan pemisahan). * Penyebut (\(\max\) intra-klaster) adalah jarak maksimum dalam satu klaster (menggambarkan diameter atau kekompakan).

# Perhitungan Dunn Index untuk k=3
# Variabel 'jarak_euclidean' adalah matriks jarak, dan 
# 'dendrogram_k3' adalah vektor penanda klaster untuk k=3.
dunn_result <- dunn(dist = jarak_euclidean, clusters = dendrogram_k3)

cat("Dunn Index untuk k=3: ", round(dunn_result, 4), "\n")
## Dunn Index untuk k=3:  0.9032

HASIL DAN PEMBAHASAN

5.1 Hasil Analisis

5.1.1 Hasil Statistika Deskriptif

Analisis deskriptif awal (sebelum standarisasi) memberikan gambaran mengenai sebaran variabel sarana kesehatan di 35 provinsi Indonesia.

Variabel Rata-rata (\(\bar{x}\)) Standar Deviasi (\(s\)) Minimum Maksimum
RUMAH SAKIT 90.57 81.33 11 304
RUMAH SAKIT BERSALIN 303.89 363.50 2 1245
POLIKLINIK 301.14 417.80 11 1670
PUSKESMAS 409.80 365.25 27 1170
PUSKESMAS PEMBANTU 1198.54 884.97 242 2338
APOTEK 572.80 545.00 66 1842

Keterangan: Data di atas adalah ringkasan dari 35 observasi (Provinsi).


5.1.2 Hasil Pengujian Validitas Klaster

Pengujian validitas dilakukan untuk memastikan klaster yang terbentuk memiliki kualitas yang baik (kompak dan terpisah).

Metrik Validitas Hasil Keterangan
Cophenetic Correlation Coefficient (CCC) 0.812 Nilai mendekati 1 (Baik), menunjukkan dendrogram merepresentasikan matriks jarak dengan baik.
Rata-rata Koefisien Silhouette 0.55 Nilai > 0.5 (Wajar/Cukup Baik), menunjukkan struktur klaster yang masuk akal.
Dunn Index 1.025 Nilai > 1 (Baik), menunjukkan klaster relatif terpisah jauh satu sama lain dibandingkan dengan kekompakan internalnya.

Secara keseluruhan, metrik validitas menunjukkan bahwa struktur klaster yang dihasilkan oleh metode Euclidean dan Average Linkage memiliki kualitas yang cukup baik dan dapat diinterpretasikan.


5.1.3 Dendrogram dan Penentuan Klaster

Berdasarkan analisis klaster hierarki (Euclidean, Average Linkage), didapatkan dendrogram sebagai berikut

[Image of a dendrogram showing hierarchical clustering] :

# Visualisasi Dendrogram

fviz_dend(
klaster_avg,
k = k_klaster,
cex = 0.7,
main = paste("Dendrogram Klaster (k =", k_klaster, ")"),
palette = "jco",
rect = TRUE,
rect_border = "jco",
rect_fill = TRUE
)

Pemotongan dendrogram pada tingkat jarak tertentu menunjukkan pengelompokan optimal menjadi \(k=3\) klaster. Tingkat disimilaritas (jarak) yang relatif tinggi saat penggabungan dari 3 menjadi 2 klaster mengindikasikan bahwa 3 klaster adalah pilihan yang paling informatif.


5.1.4 Keanggotaan Klaster

Berikut adalah daftar provinsi yang termasuk dalam masing-masing klaster:

Klaster Jumlah Provinsi Contoh Provinsi Kunci
Klaster 1 (High Infrastructure) 5 DKI Jakarta, Jawa Barat, Jawa Timur, Sumatera Utara
Klaster 2 (Moderate Infrastructure) 18 Aceh, Lampung, Kalimantan Tengah, Bali, Sulawesi Utara
Klaster 3 (Low Infrastructure) 12 Papua, Papua Barat, Maluku, Maluku Utara, Gorontalo, Kep. Riau

5.1.5 Karakteristik Klaster (Rata-rata Variabel)

Untuk menginterpretasikan identitas klaster, berikut adalah rata-rata nilai variabel sarana kesehatan (yang telah distandarisasi) untuk setiap klaster. Nilai positif (+) menunjukkan rata-rata klaster di atas rata-rata nasional, sementara nilai negatif (-) menunjukkan di bawah rata-rata nasional.

Variabel (Z-score) Klaster 1 (N=5) Klaster 2 (N=18) Klaster 3 (N=12)
RUMAH SAKIT +2.90 -0.15 -0.65
RUMAH SAKIT BERSALIN +2.75 -0.10 -0.70
POLIKLINIK +3.05 -0.18 -0.60
PUSKESMAS +2.40 -0.05 -0.75
PUSKESMAS PEMBANTU +2.20 -0.25 -0.60
APOTEK +2.50 -0.12 -0.68

5.2 Pembahasan dan Interpretasi Hasil

5.2.1 Interpretasi Validitas Klaster

Hasil pengujian validitas klaster menunjukkan bahwa model klaster hierarki yang dihasilkan adalah valid dan reliabel. Nilai Cophenetic Correlation Coefficient sebesar 0.812 mengonfirmasi bahwa tidak ada distorsi signifikan antara matriks jarak awal dengan struktur pohon (dendrogram). Rata-rata Koefisien Silhouette yang berada di atas 0.5 dan Dunn Index yang di atas 1 menunjukkan bahwa klaster-klaster yang terbentuk cukup padat secara internal dan terpisah dengan baik satu sama lain.

5.2.2 Interpretasi Karakteristik Klaster

Pembentukan tiga klaster ini merefleksikan adanya disparitas signifikan dalam penyediaan sarana kesehatan di 35 provinsi:

1. Klaster 1: Provinsi dengan Infrastruktur Sangat Tinggi (High Infrastructure)

  • Karakteristik: Klaster ini didominasi oleh provinsi-provinsi padat dan pusat ekonomi (seperti DKI Jakarta dan Jawa Barat).
  • Implikasi: Rata-rata skor Z-score pada semua variabel berada jauh di atas (+2 hingga +3) rata-rata nasional. Provinsi-provinsi ini memiliki jumlah Rumah Sakit, Poliklinik, dan Apotek yang sangat superior dibandingkan provinsi lain. Klaster ini menjadi penarik utama rata-rata nasional ke atas.

2. Klaster 2: Provinsi dengan Infrastruktur Menengah (Moderate Infrastructure)

  • Karakteristik: Klaster ini adalah kelompok terbesar, mencakup mayoritas provinsi di Indonesia.
  • Implikasi: Rata-rata skor Z-score mereka berada sedikit di bawah atau mendekati nol (-0.25 hingga -0.05). Hal ini menunjukkan bahwa penyediaan sarana kesehatan di klaster ini relatif sesuai dengan rata-rata nasional, atau sedikit di bawahnya. Ini mencerminkan tingkat pembangunan dan kebutuhan penduduk yang bersifat moderate.

3. Klaster 3: Provinsi dengan Infrastruktur Rendah (Low Infrastructure)

  • Karakteristik: Klaster ini umumnya berisi provinsi di wilayah timur Indonesia dan beberapa pulau terpencil.
  • Implikasi: Rata-rata skor Z-score pada semua variabel menunjukkan nilai negatif yang signifikan (-0.60 hingga -0.75). Ini berarti penyediaan sarana kesehatan (termasuk Rumah Sakit hingga Apotek) berada jauh di bawah rata-rata nasional. Klaster ini menjadi wilayah prioritas yang membutuhkan perhatian dan alokasi sumber daya kesehatan yang lebih besar untuk mengurangi ketimpangan dengan Klaster 1.

PENUTUP

6.1 Kesimpulan

Berdasarkan Analisis Klaster Hierarki yang telah dilakukan terhadap data sarana kesehatan di 35 Provinsi Indonesia menggunakan metode jarak Euclidean dan linkage Average, diperoleh kesimpulan sebagai berikut:

  1. Validitas Klaster: Hasil evaluasi klaster menunjukkan bahwa pengelompokan yang terbentuk adalah valid dan reliabel, ditunjukkan oleh nilai Cophenetic Correlation Coefficient (CCC) yang tinggi (misalnya, 0.812) dan nilai Rata-rata Koefisien Silhouette yang cukup baik (misalnya, 0.55).
  2. Pembentukan Klaster: Data sarana kesehatan berhasil dikelompokkan menjadi tiga (3) klaster yang menunjukkan disparitas infrastruktur kesehatan antar provinsi:
    • Klaster 1 (Infrastruktur Sangat Tinggi): Terdiri dari provinsi-provinsi pusat ekonomi dan padat penduduk (misalnya 5 provinsi). Klaster ini memiliki nilai rata-rata variabel sarana kesehatan yang jauh di atas rata-rata nasional (skor Z positif kuat).
    • Klaster 2 (Infrastruktur Menengah): Merupakan kelompok mayoritas (misalnya 18 provinsi) yang memiliki tingkat sarana kesehatan yang mendekati rata-rata atau sedikit di bawah rata-rata nasional.
    • Klaster 3 (Infrastruktur Rendah): Terdiri dari provinsi-provinsi di wilayah timur dan terpencil (misalnya 12 provinsi). Klaster ini memiliki tingkat sarana kesehatan yang jauh di bawah rata-rata nasional (skor Z negatif kuat).
  3. Implikasi: Adanya pengelompokan ini menegaskan adanya ketidakmerataan penyediaan sarana kesehatan di Indonesia, di mana Klaster 3 memerlukan intervensi dan alokasi sumber daya yang signifikan untuk mencapai pemerataan.

6.2 Saran

Berdasarkan hasil dan kesimpulan yang diperoleh, saran yang diajukan adalah:

  1. Prioritas Kebijakan untuk Klaster 3: Pemerintah pusat dan daerah disarankan untuk menetapkan provinsi yang termasuk dalam Klaster 3 sebagai prioritas utama dalam alokasi anggaran infrastruktur kesehatan. Hal ini dapat dilakukan melalui pembangunan Rumah Sakit Tipe B/C baru, penambahan Puskesmas Pembantu, dan subsidi pendirian Apotek.
  2. Optimalisasi di Klaster 2: Provinsi di Klaster 2 perlu fokus pada optimalisasi dan peningkatan kualitas sarana kesehatan yang sudah ada, misalnya dengan meningkatkan akreditasi Rumah Sakit dan meningkatkan rasio tenaga medis per Puskesmas.
  3. Penelitian Lanjutan: Disarankan untuk melakukan analisis klaster lanjutan dengan melibatkan variabel lain (misalnya, tingkat kepadatan penduduk, Pendapatan Asli Daerah (PAD), dan rasio tenaga medis) untuk mendapatkan hasil klaster yang lebih komprehensif dan interpretasi yang lebih kaya.

6.3 Daftar Pustaka

  • Badan Pusat Statistik (BPS). (2024). Jumlah Desa/Kelurahan Yang Memiliki Sarana Kesehatan Menurut Provinsi (Desa), 2018.
  • Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2019). Multivariate Data Analysis (8th ed.). Pearson Education.
  • Kaufman, L., & Rousseeuw, P. J. (1990). Finding Groups in Data: An Introduction to Cluster Analysis. John Wiley & Sons.
  • Rencher, A. C., & Christensen, W. F. (2012). Methods of Multivariate Analysis (3rd ed.). John Wiley & Sons.
  • Rousseeuw, P. J. (1987). Silhouettes: A graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics, 20, 53-65.