- 1 PENDAHULUAN
- 2 TINJAUAN PUSTAKA
- 3 SOURCE CODE
- 3.1 Library
- 3.2 Impor Data
- 3.3 Statistika Deskriptif
- 3.4 Pengujian Asumsi
- 3.5 Standarisasi Data
- 3.6 Menambahkan Nama Provinsi Sebagai Label Baris
- 3.7 Jarak Euclidean
- 3.8 Korelasi Cophenetic
- 3.9 Indeks Validitas
- 3.10 Clustering Hirarki Menggunakan Metode Average Linkage
- 3.11 Mengelompokkan observasi ke dalam cluster
- 3.12 Visualisasi Dendrogram
- 3.13 Melihat Identitas Cluster dari Setiap Observasi
- 3.14 Menghitung rata-rata setiap variabel dalam masing-masing cluster
- 4 HASIL DAN PEMBAHASAN
- 5 KESIMPULAN DAN SARAN
- 6 DAFTAR PUSTAKA
1 PENDAHULUAN
1.1 Latar Belakang
Pemerataan sarana kesehatan merupakan faktor utama dalam meningkatkan kualitas layanan kesehatan masyarakat di suatu wilayah. Sarana kesehatan seperti rumah sakit, poliklinik, puskesmas, dan apotek memiliki peran krusial dalam menyediakan akses layanan kesehatan yang merata bagi seluruh masyarakat. Di Indonesia, keberadaan sarana kesehatan sering kali menunjukkan kesenjangan antar daerah, baik antar provinsi maupun antar desa/kelurahan. Provinsi-provinsi dengan tingkat urbanisasi yang lebih tinggi cenderung memiliki sarana kesehatan yang lebih lengkap dibandingkan dengan daerah-daerah perdesaan atau terpencil. Hal tersebut menciptakan ketimpangan akses kesehatan yang dapat memengaruhi kualitas hidup masyarakat secara keseluruhan.
Data ketersediaan sarana kesehatan di desa/kelurahan di Indonesia pada tahun 2021 memberikan gambaran mengenai distribusi fasilitas kesehatan di setiap provinsi. Berdasarkan data tersebut, terdapat variasi jumlah desa/kelurahan yang memiliki akses terhadap rumah sakit, poliklinik, puskesmas, dan apotek. Variasi ini dapat disebabkan oleh perbedaan dalam tingkat pembangunan infrastruktur, alokasi anggaran pemerintah, maupun jumlah populasi di masing-masing wilayah. Analisis mendalam diperlukan untuk mengidentifikasi pola pengelompokkan provinsi berdasarkan ketersediaan sarana kesehatan. Dengan memahami pola ini, pemerintah dapat mengembangkan kebijakan yang lebih tepat sasaran dalam pemerataan fasilitas kesehatan.
Metode analisis cluster hierarki dipilih untuk menggambarkan pola pengelompokkan provinsi berdasarkan kesamaan ketersediaan sarana kesehatan. Metode ini tidak memerlukan asumsi awal mengenai jumlah kelompok sehingga sangat fleksibel untuk digunakan dalam eksplorasi data dengan pola distribusi yang belum diketahui. Analisis cluster hierarki juga menghasilkan dendrogram yang memudahkan visualisasi hubungan antar provinsi berdasarkan ketersediaan sarana kesehatan. Selain itu, metode ini memungkinkan penggunaan jarak euclidean untuk menghitung kesamaan atau perbedaan antar provinsi, sehingga menghasilkan pengelompokkan yang lebih akurat. Dengan demikian, analisis ini dipandang paling sesuai untuk memetakan perbedaan ketersediaan fasilitas kesehatan antar provinsi.
Kontribusi penelitian ini diharapkan mencakup aspek teoritis maupun praktis. Secara teoritis, penelitian ini memperluas penerapan metode analisis cluster pada data kesehatan, khususnya dalam konteks distribusi fasilitas kesehatan di wilayah Indonesia. Secara praktis, penelitian ini memberikan informasi yang sangat berguna bagi pemerintah untuk menentukan prioritas pembangunan dan pemerataan sarana kesehatan. Provinsi yang tergolong ke dalam kelompok dengan fasilitas kesehatan rendah dapat menjadi fokus utama dalam alokasi sumber daya dan kebijakan pembangunan. Dengan demikian, penelitian ini diharapkan dapat membantu meningkatkan akses masyarakat terhadap layanan kesehatan serta mendukung tercapainya pemerataan pembangunan di seluruh wilayah Indonesia.
1.2 Studi Kasus
Data yang digunakan dalam penelitian ini merupakan data sekunder yang diperoleh dari Badan Pusat Statistik (BPS). Data tersebut merupakan data jumlah desa/kelurahan yang memiliki sarana kesehatan menurut 34 provinsi di Indonesia yang diambil pada tahun 2021. Berikut merupakan data yang digunakan dalam penelitian ini:
| \(Y\) | \(X_1\) | \(X_2\) | \(X_3\) | \(X_4\) |
|---|---|---|---|---|
| Aceh | 70 | 275 | 363 | 380 |
| Sumatera Utara | 184 | 844 | 618 | 709 |
| Sumatera Barat | 65 | 143 | 282 | 292 |
| Riau | 60 | 310 | 238 | 368 |
| Jambi | 37 | 100 | 212 | 214 |
| Sumatera Selatan | 73 | 217 | 352 | 288 |
| Bengkulu | 22 | 59 | 185 | 158 |
| Lampung | 73 | 334 | 310 | 439 |
| Kep. Bangka Belitung | 23 | 51 | 65 | 98 |
| Kep. Riau | 27 | 71 | 92 | 84 |
| DKI Jakarta | 119 | 226 | 250 | 235 |
| Jawa Barat | 321 | 1772 | 1105 | 2085 |
| Jawa Tengah | 288 | 1198 | 879 | 2358 |
| DI Yogyakarta | 64 | 150 | 120 | 232 |
| Jawa Timur | 424 | 1263 | 1009 | 2123 |
| Banten | 95 | 496 | 249 | 417 |
| Bali | 55 | 127 | 120 | 256 |
| NTB | 44 | 82 | 177 | 329 |
| NTT | 55 | 113 | 414 | 215 |
| Kalimantan Barat | 42 | 100 | 244 | 167 |
| Kalimantan Tengah | 23 | 108 | 203 | 93 |
| Kalimantan Selatan | 41 | 125 | 236 | 197 |
| Kalimantan Timur | 39 | 149 | 188 | 243 |
| Kalimantan Utara | 12 | 18 | 60 | 63 |
| Sulawesi Utara | 44 | 55 | 198 | 195 |
| Sulawesi Tengah | 35 | 63 | 220 | 225 |
| Sulawesi Selatan | 96 | 181 | 473 | 590 |
| Sulawesi Tenggara | 34 | 31 | 291 | 249 |
| Gorontalo | 16 | 62 | 93 | 101 |
| Sulawesi Barat | 10 | 21 | 100 | 63 |
| Maluku | 33 | 33 | 218 | 75 |
| Maluku Utara | 21 | 20 | 149 | 90 |
| Papua Barat | 20 | 25 | 179 | 90 |
| Papua | 52 | 83 | 447 | 145 |
Keterangan :
\(Y\)= Provinsi
\(X_1\)= Jumlah Desa/Kelurahan yang Memiliki Sarana Kesehatan - Rumah Sakit
\(X_2\)= Jumlah Desa/Kelurahan yang Memiliki Sarana Kesehatan - Poliklinik
\(X_3\)= Jumlah Desa/Kelurahan yang Memiliki Sarana Kesehatan - Puskesmas
\(X_4\)= Jumlah Desa/Kelurahan yang Memiliki Sarana Kesehatan - Apotek
1.3 Rumusan Masalah
Berdasarkan latar belakang yang telah dipaparkan sebelumnya, rumusan masalah dari penelitian ini adalah sebagai berikut:
Bagaimana pola pengelompokkan provinsi di Indonesia berdasarkan ketersediaan sarana kesehatan di desa/kelurahan, seperti rumah sakit, rumah poliklinik, puskesmas, dan apotek, pada tahun 2021?
Apakah terdapat kesamaan atau perbedaan yang signifikan dalam ketersediaan sarana kesehatan antar provinsi di Indonesia?
Berapa jumlah cluster yang optimal untuk mengelompokkan provinsi berdasarkan ketersediaan sarana kesehatan di desa/kelurahan?
1.4 Tujuan
Berdasarkan rumusan masalah, penelitian ini dilakukan dengan tujuan sebagai berikut:
- Menentukan jumlah cluster optimal untuk mendukung analisis pengelompokkan provinsi berdasarkan ketersediaan sarana kesehatan di desa/kelurahan.
- Menganalisis kesamaan dan perbedaan antar provinsi terkait ketersediaan sarana kesehatan, seperti rumah sakit, rumah poliklinik, puskesmas, dan apotek.
- Menentukan jumlah cluster optimal yang dapat digunakan untuk pengelompokkan provinsi berdasarkan ketersediaan sarana kesehatan di desa/kelurahan
1.5 Manfaat
Penelitian ini diharapkan dapat memberikan manfaat sebagai berikut:
Manfaat Akademis
Memberikan kontribusi dalam penerapan metode analisis cluster hirarki pada data sarana kesehatan.
Menambah referensi penelitian di bidang statistik terapan yang berkaitan dengan ketersediaan sarana kesehatan di tingkat desa/kelurahan pada setiap provinsi di Indonesia.
Manfaat Praktis
Memberikan gambaran bagi pemerintah tentang distribusi ketersediaan sarana kesehatan di desa/kelurahan sebagai dasar untuk merumuskan kebijakan pemerataan layanan kesehatan.
Membantu mengidentifikasi provinsi-provinsi prioritas untuk peningkatan sarana kesehatan berdasarkan hasil pengelompokkan.
Manfaat Sosial
- Mendukung peningkatan akses masyarakat terhadap fasilitas kesehatan melalui pemerataan pembangunan di wilayah dengan sarana kesehatan yang masih rendah.
- Mendorong kesadaran masyarakat dan pemangku kebijakan tentang pentingnya pemerataan fasilitas kesehatan untuk meningkatkan kualitas hidup masyarakat.
2 TINJAUAN PUSTAKA
2.1 Statistika Deskriptif
Statistika deskriptif adalah cabang dari ilmu statistik yang bertujuan untuk menggambarkan, meringkas, dan menganalisis data dalam bentuk yang mudah dipahami. Statistika deskriptif melibatkan penggunaan tabel, grafik, dan ukuran ringkasan numerik untuk menjelaskan karakteristik dasar dari data yang dikumpulkan. Menurut Santoso (2015), dalam penelitian yang dipublikasikan dalam Jurnal Teknologi Informasi, statistika deskriptif membantu dalam memberikan gambaran awal tentang distribusi dan pola data sebelum dilakukan analisis yang lebih mendalam. Ini termasuk perhitungan seperti mean, median, modus, variansi, dan standar deviasi, serta representasi data melalui histogram, diagram batang, dan boxplot. Dengan demikian, statistika deskriptif merupakan alat yang sangat penting dalam berbagai bidang penelitian dan aplikasi praktis, menyediakan dasar yang kuat untuk analisis data yang lebih lanjut.
2.2 Analisis Cluster
Analisis cluster merupakan suatu analisis statistik yang bertujuan untuk menggabungkan objek atau variabel ke dalam kelompok yang mempunyai sifat berbeda antara kelompok satu dengan kelompok yang lainnya (Johnson & Wichern, 2002). Analisis cluster mengelompokkan sejumlah \(n\) objek berdasarkan varians yang secara relatif mempunyai kesamaan karakteristik diantara objek-objek tersebut, sehingga keragam di dalam suatu kelompok tersebut lebih kecil dibandingkan keragaman antar kelompok. Objek tersebut akan diklasifikasi kedalam satu atau lebih cluster akan mempunyai satu kemiripan atau kesamaan karakteristik. Prosedur cluster data dapat dilakukan dengan dua metode yaitu metode hierarki dan metode non-hierarki. Perbedaan dari kedua metode tersebut adalah pada penentuan jumlah kelompok atau cluster. Jika pada metode non-hierarki dalam menentukan jumlah cluster ditentukan terlebih dahulu sesuai keinginan peneliti, maka metode hierarki melalui proses pengelompokan secara bertahap seperti membentuk semacam pohon atau dendogram dengan tingkatan.
2.2.1 Analisis Cluster Hirarki
Pembentukan cluster pada metode ini yaitu objek-objek yang memiliki kemiripan paling dekat akan dikelompokkan terlebih dahulu, kemudian proses dilanjutkan ke objek lain yang memiliki kedekatan kedua, demikian seterusnya hingga terbentuk kelompok-kelompok maka clustering objek-objek tersebut seperti membentuk pohon dengan tingkatan. Menurut Johnson dan Wichern (2002), metode cluster hierarki dibagi menjadi dua teknik pengelompokan, yaitu agglomerative (penggabungan) dan divise (pemecahan). Teknik agglomerative (penggabungan) dilakukan dengan cara masing-masing objek dianggap sebagai cluster yang berbeda kemudian antar objek yang jaraknya berdekatan bergabung menjadi satu cluster. Sedangkan teknik divise (pemecahan) yaitu pembentukan cluster dengan cara pada awalnya semua objek berada dalam satu cluster kemudian sifat paling beda dipisahkan untuk membentuk satu cluster yang lain. Hasil pengelompokan dengan metode hierarki dapat disajikan dalam bentuk dendogram. Dendogram sendiri merupakan representasi visual dari langkah-langkah dalam analisis cluster yang menunjukkan bagaimana cluster terbentuk dan nilai koefisien jarak pada setiap langkah.
2.3 Ukuran Jarak Euclidean
Jarak euclidian (euclidean distance) merupakan salah satu pengukuran jarak yang paling biasa digunakan dalam analisis cluster. Jarak ini didapatkan dengan cara mengkuadratkan jarak antar dua objek yang akan diukur. Rumus jarak euclidean dapat dinyatakan pada persamaan berikut:
\[ d_{ij}=\sqrt{\sum_{k=1}^{p}(x_{ik}-x_{jk})^{2}} \]
keterangan:
\(k\) = 1,2,3,…,\(p\)
\(i,j\) = 1,2,3,…,\(n\)
\(d_{ij}\) = Jarak euclidean antara objek ke-\(i\) dan objek ke-\(j\)
\(p\) = Banyak variabel cluster
\(n\) = Banyak objek pengamatan
\(x_{ik}\) = Nilai atau data dari objek ke-\(i\) pada variabel ke-\(k\)
\(x_{jk}\) = Nilai atau data dari objek ke-\(j\) pada variabel ke-\(k\)
2.4 Metode Analisis Cluster Hirarki
2.4.1 Single Linkage
Pada metode single linkage, ukuran kemiripan dua cluster diukur dengan jarak terdekat antara sebuah objek dalam cluster yang satu dengan sebuah objek dalam cluster yang lain (Johnson dan Wichern, 2002). Prosedur single linkage secara formal didefiniskan pada persamaan berikut:
\[ d_{(UV)W}=min(d_{UW},d_{VW}) \]
Keterangan:
\(d_{(UV)W}\) = Jarak antara cluster (UV) dan cluster W
\(d_{UV}\) = Jarak antara tetangga terdekat cluster U dan W
\(d_{VW}\) = Jarak antara tetangga terdekat cluster V dan W
2.4.2 Complete Linkage
Pada metode complete linkage, ukuran kemiripan dua cluster diukur dengan jarak terjauh antara sebuah objek dalam cluster yang satu dengan sebuah objek dalam cluster yang lain (Johnson dan Wichern, 2002). Prosedur complete linkage secara formal didefiniskan pada persamaan berikut:
\[ d_{(UV)W}=max(d_{UW},d_{VW}) \]
Keterangan:
\(d_{(UV)W}\) = Jarak antara cluster (UV) dan cluster W
\(d_{UV}\) = Jarak antara tetangga terdekat cluster U dan W
\(d_{VW}\) = Jarak antara tetangga terdekat cluster V dan W
2.4.3 Average Linkage
Pada metode average linkage, ukuran kemiripan dua cluster merupakan rata-rata jarak semua objek dalam satu cluster dengan semua objek cluster lain (Johnson dan Wichern, 2002). Penggunaan rata-rata pada metode ini dianggap lebih stabil dan tidak bias. Prosedur average linkage dimulai dengan mendefinisikan matrik D=\(d_{ij}\) untuk memperoleh objek-objek paling dekat, misal U dan V. Kemudian objek ini digabung ke dalam bentuk (UV), selanjutnya jarak antar (UV) dan cluster lainnya (W). Secara formal didefiniskan pada persamaan berikut:
\[ d_{(UV)W}=\frac{\sum_{i}^{}\sum_{j}^{}d_{ij}}{N_{UV}N_{W}} \]
Keterangan:
\(d_{(UV)W}\) = Jarak antara cluster (UV) dan cluster W
\(d_{ij}\) = Jarak antara objek ke-\(i\) dalam cluster (UV) objek ke-\(j\) dalam cluster W
\(N_{UV}\) = Jumlah objek dalam cluster (UV)
\(N_{W}\) = Jumlah objek dalam cluster W
2.4.4 Centroid Linkage
Pada metode centroid linkage, ukuran kemiripan dua cluster merupakan diukur sebagai jarak euclidean antara kedua rataan (centroid) cluster. Kelebihan dari metode ini adalah kecilnya pengaruh pencilan dalam pembentukan kelompok. Secara formal didefiniskan pada persamaan berikut:
\[ d_{(UV)W}=\sqrt{\sum_{j=1}^{}(c_{(UV),j}-c_{(W),j})} \]
Keterangan:
\(d_{(UV)W}\) = Jarak antara cluster (UV) dan cluster W
\(c_{UV}\) = Centroid dari cluster UV
\(c_{W}\) = Centroid dari cluster W
2.4.5 Ward’s Method
Metode ward merupakan suatu metode hierarki clustering yang didasari oleh hilangnya informasi akibat penggabungan objek menjadi cluster (Johnson dan Winchern, 2002). Metode ward bertujuan untuk meminimumkan ragam dalam cluster dan memaksimalkan ragam antar objek pada cluster lainnya. Metode ini diukur dengan menggunakan jumlah total dari deviasi kuadrat pada mean cluster untuk setiap pengamatan. Dua obyek akan digabungkan jika mempunyai Error Sum of Squares (ESS) terkecil diantara kemungkinan yang ada. Secara formal didefiniskan pada persamaan berikut:\[ ESS=\sum_{j=1}^{k}(\sum_{j=1}^{n_{j}}x_{j}^2-\frac{1}{n_{j}}(\sum_{j=1}^{n_{j}}x_{j}^2)) \] Keterangan:
\(x_{ij}\) = Nilai atau data untuk objek ke-\(i\) pada kelompok ke-\(j\)
\(K\) = Jumlah kelompok setiap stage
\(n_{j}\) = Jumlah kelompok ke-\(i\) pada kelompok ke-\(j\)
2.5 Pengujian Asumsi
2.5.1 Uji Sampel Representatif (Kaiser-Meyer-Olkin Test)
Kaiser-Meyer-Olkin (KMO) digunakan untuk mengukur kecukupan sampel dengan cara membandingkan besarnya koefisien korelasi yang diamati dengan koefisein korelasi parsialnya di mana syarat data layak untuk dianalisis jika nilai KMO lebih besar daripada 0.5. Kriteria kesesuaian dalam pemakaian kecukupan sampel adalah :
Jika nilai KMO sekitar 0.9, maka dapat dikategorikan sangat memuaskan.
Jika nilai KMO sekitar 0.8, maka dapat dikategorikan memuaskan.
Jika nilai KMO sekitar 0.7, maka dapat dikategorikan cukup memuaskan.
Jika nilai KMO sekitar 0.6, maka dapat dikategorikan kurang memuaskan.
Jika nilai KMO sekitar 0.5, maka dapat dikategorikan hampir tidak memuaskan.
- Jika nilai KMO sekitar dari 0.5, maka dapat dikategorikan tidak memuaskan dan data tidak layak untuk dianalisis lebih lanjut menggunakan analisis cluster.
Berikut adalah rumus yang digunakan untuk menghitung nilai KMO:
\[ KMO=\frac{\sum_{i=1}^{p}\sum_{j=1}^{p}r_{ij}^{2}}{\sum_{i=1}^{p}\sum_{j=1}^{p}a_{ij}^{2}+\sum_{i=1}^{p}\sum_{j=1}^{p}r_{ij}^{2}} \]
Keterangan:
\(r_{ij}\) = Koefisien korelasi antara variabel ke-\(i\) dan variabel ke-\(j\)
\(a_{ij}\) = Koefisien korelasi parsial antara variabel ke-\(i\) dan variabel ke-\(j\)
\(p\) = Banyaknya variabel
2.5.2 Uji Non-Multikolinearitas
Uji non-multikolinearitas dalam analisis regresi berguna untuk mengidentifikasi dan mengatasi hubungan linear yang kuat antara variabel independen. Uji multikolinearitas yang tinggi dapat menyebabkan koefisien regresi tidak stabil dan sulit untuk diinterpretasikan. Uji non-multikuolinearitas dapat dilihat dari korelasi antar variabel. Menurut Walpole (1995) pada kasus parametrik, ukuran korelasi dua variabel yang paling banyak digunakan adalah koefisien korelasi product moment pearson. Kegunaan korelasi product moment pearson untuk menyatakan ada atau tidaknya hubungan antara variabel independen dengan variabel dependen serta menyatakan besarnya kontribusi keeratan variabel satu terhadap lainnya. Bila \(r\) mendekati +1 atau −1, hubungan antara kedua peubah kuat dan dapat dikatakan terdapat korelasi yang tinggi antara keduanya. Akan tetapi, bila \(r\) mendekati nol, hubungan linier antarvariabel sangat lemah atau mungkin tidak ada sama sekali
2.6 Validitas Cluster
Validitas digunakan oleh peneliti untuk mengetahui apakah hasil kelompok cluster yang terbentuk mampu menjelaskan dan mewakili populasi secara umum. Validitas cluster dapat digunakan untuk membantu memecahkan permasalahan utama dalam analisis cluster yaitu menentukan jumlah kelompok optimum. Selain itu, pemeriksaan validitas cluster mampu untuk mengevaluasi kebaikan dari suatu hasil dari analisis cluster secara kuantitatif sehingga mampu dihasilkan cluster optimum. Terdapat beberapa indeks yang digunakan dalam pengelompokan, antara lain sebagai berikut:
Indeks Connectivity
Indeks connectivity mengukur sejauh mana objek dalam cluster saling terhubung berdasarkan jarak tetangga terdekat. Semakin rendah nilai indeks connectivity menunjukkan semakin baik jumlah cluster optimal.
Indeks Dunn
Indeks dunn mengukur validitas cluster dengan mempertimbangkan rasio antara jarak minimum antar cluster dan diameter maksimum dalam cluster. Semakin tinggi nilai indeks dunn menunjukkan semakin baik jumlah cluster optimal.
Indeks Silhoutte
Indeks silhoutte mengukur seberapa baik sebuah objek dikelompokkan dengan clusternya sendiri dibandingkan dengan cluster lain. Semakin tinggi nilai indeks silhoutte menunjukkan semakin baik jumlah cluster optimal.
3 SOURCE CODE
3.1 Library
> # Library
> library(readxl)
> library(psych)
> library(GPArotation)
> library(clValid)
> library(ggplot2)
> library(cluster)
> library(factoextra)
> library(tidyverse)
> library(car)Memuat berbagai library yang mendukung pengolahan data, analisis
multivariat, serta visualisasi. Library seperti readxl
digunakan untuk membaca file excel, sedangkan
psych dan GPArotation diperlukan untuk
analisis statistik. Library seperti clValid,
factoextra, dan cluster membantu dalam
analisis cluster, termasuk evaluasi validitas cluster
dan visualisasi dendrogram.
3.2 Impor Data
> #Mengimport data
> data <- read_excel("C:/Users/ASUS/Documents/Semester 5/Analisis Multivariat I/prak_2.xlsx")
> #Membentuk data frame
> data<-data.frame(data)Data ini diimpor menggunakan library readxl, kemudian
diubah menjadi data frame untuk mempermudah proses analisis.
3.3 Statistika Deskriptif
> #Statistika Deskriptif
> statdes <- summary(data)
> statdes
Y X1 X2 X3
Length:34 Min. : 10.00 Min. : 18.00 Min. : 60.0
Class :character 1st Qu.: 28.50 1st Qu.: 59.75 1st Qu.: 177.5
Mode :character Median : 44.00 Median : 110.50 Median : 228.0
Mean : 76.97 Mean : 261.91 Mean : 304.1
3rd Qu.: 72.25 3rd Qu.: 223.75 3rd Qu.: 341.5
Max. :424.00 Max. :1772.00 Max. :1105.0
X4
Min. : 63.0
1st Qu.: 112.0
Median : 228.5
Mean : 407.8
3rd Qu.: 358.2
Max. :2358.0 Dilakukan statistik deskriptif menggunakan fungsi
summary(). Hasil dari perintah tersebut menunjukkan
rangkuman ukuran pemusatan dan persebaran data pada masing-masing
variabel.
3.4 Pengujian Asumsi
Dilakukan uji asumsi dengan fokus pada dua aspek utama: uji KMO dan korelasi antar variabel.
3.4.1 Uji Sampel Representatif (Kaiser-Meyer-Olkin Test)
> # Uji Sampel Representatif
> kmo <- KMO(data[,2:5])
> kmo
Kaiser-Meyer-Olkin factor adequacy
Call: KMO(r = data[, 2:5])
Overall MSA = 0.89
MSA for each item =
X1 X2 X3 X4
0.86 0.90 0.92 0.87 Uji KMO dilakukan menggunakan fungsi KMO() dari library
psych, yang bertujuan untuk mengevaluasi kelayakan data
dalam analisis multivariat.
3.4.2 Uji Non-Multikolinearitas
> #Uji Non-Multikolinearitas
> korelasi <- cor(data[,2:5], method = 'pearson')
> korelasi
X1 X2 X3 X4
X1 1.0000000 0.9401167 0.9302608 0.9513820
X2 0.9401167 1.0000000 0.9199765 0.9414364
X3 0.9302608 0.9199765 1.0000000 0.9216815
X4 0.9513820 0.9414364 0.9216815 1.0000000Uji non-multikuolinearitas dapat dilihat dari korelasi antar
variabel. Korelasi antar variabel dihitung menggunakan fungsi
cor() dengan metode pearson untuk melihat apakah
terdapat multikolinearitas yang di antara variabel.
3.4.3 Penanganan Multikolinearitas
> #Dengan Matriks Kovarians
> #Dekomposisi Eigen
> s <- cov(data[,2:5])
> s_eig <- eigen(s)
> s_eig
eigen() decomposition
$values
[1] 553701.6720 13226.3772 7040.1658 582.3723
$vectors
[,1] [,2] [,3] [,4]
[1,] -0.1202320 -0.02544259 0.05975242 0.99061929
[2,] -0.5287169 -0.75679410 -0.37951910 -0.06071587
[3,] -0.3207970 -0.22635431 0.91426138 -0.09989554
[4,] -0.7765900 0.61268188 -0.12853417 -0.07076639
> #Nilai Kumulatif Eigen
> for (eg in s_eig$values){
+ print(eg / sum(s_eig$values))
+ }
[1] 0.9637127
[1] 0.02302039
[1] 0.01225334
[1] 0.001013614
> #Persamaan PCA
> s_eig$vectors[,1:4]
[,1] [,2] [,3] [,4]
[1,] -0.1202320 -0.02544259 0.05975242 0.99061929
[2,] -0.5287169 -0.75679410 -0.37951910 -0.06071587
[3,] -0.3207970 -0.22635431 0.91426138 -0.09989554
[4,] -0.7765900 0.61268188 -0.12853417 -0.07076639
> # Fungsi PCA dengan `prcomp`
> PCA1 <- prcomp(x=data[,2:5],scale=T,center=T)
> summary(PCA1)
Importance of components:
PC1 PC2 PC3 PC4
Standard deviation 1.9500 0.29505 0.25024 0.21863
Proportion of Variance 0.9506 0.02176 0.01566 0.01195
Cumulative Proportion 0.9506 0.97239 0.98805 1.00000
> #Skor PCA
> pca_score <- PCA1$x
> # Membentuk Data Baru Berdasarkan Komponen Utama
> data2 <- data.frame("Provinsi" = data$Y, "Skor PCA" = pca_score[,1])PCA digunakan untuk mengurangi dimensi data yang sangat berkorelasi (lebih dari 0.8) sehingga dapat mengatasi masalah multikolinearitas. Hal tersebut mengidentifikasi komponen utama yang paling menjelaskan variansi dalam data.
3.5 Standarisasi Data
> #Standarisasi data
> datastand <- scale(data2[, 2:ncol(data2)])
> datastand
[,1]
[1,] 0.03607462
[2,] 1.11619213
[3,] -0.18212008
[4,] -0.10090228
[5,] -0.39224127
[6,] -0.04411957
[7,] -0.51188737
[8,] 0.05442836
[9,] -0.66174400
[10,] -0.61689731
[11,] -0.03694822
[12,] 3.18448462
[13,] 2.62140830
[14,] -0.37038707
[15,] 3.06771383
[16,] 0.14702668
[17,] -0.39937004
[18,] -0.36871301
[19,] -0.12978485
[20,] -0.36683699
[21,] -0.48859220
[22,] -0.34857519
[23,] -0.36700721
[24,] -0.73373479
[25,] -0.42385450
[26,] -0.40833284
[27,] 0.25242091
[28,] -0.34917970
[29,] -0.64464039
[30,] -0.69703672
[31,] -0.50120291
[32,] -0.60575803
[33,] -0.57510152
[34,] -0.15478140
attr(,"scaled:center")
[1] 2.938826e-17
attr(,"scaled:scale")
[1] 1.950006Karena variabel-variabel yang digunakan memiliki rentang atau ukuran nilai yang sangat berbeda satu sama lain, maka dilakukan standarisasi variabel kedalam bentuk z-score untuk menghilangkan perbedaan skala dan memastikan bahwa semua variabel memiliki kontribusi yang setara dalam analisis. Hal tersebut dilakukan agar analisis dapat lebih akurat dalam menggambarkan hubungan antar provinsi berdasarkan ketersediaan sarana kesehatan di desa/kelurahan tanpa adanya pengaruh dominasi dari variabel dengan rentang nilai yang lebih besar.
3.6 Menambahkan Nama Provinsi Sebagai Label Baris
Mengatur nama baris pada dataframe datastand dengan
fungsi rownames(datastand) yang digunakan untuk mengganti
label default dengan nama provinsi
3.7 Jarak Euclidean
Menghitung jarak antar observasi dengan metode euclidean
menggunakan fungsi dist().
3.8 Korelasi Cophenetic
> #Menghitung Jarak Euclidien
> jarak <- dist(datastand, method = "euclidean")
> #Koefisien Korelasi Cophenetic
> d1 <- dist(data[,2:5])
> #Single Linkage
> hier_s <- hclust(dist(data[,2:5]), method = "single")
> #korelasi cophenetic
> hc1 <- hclust(d1, "single")
> d2 <- cophenetic(hc1)
> cor_single <- cor(d1,d2)
> #Average Linkage
> hier_average <- hclust(dist(data[,2:5]), method = "ave")
> #korelasi cophenetic
> hc2 <- hclust(d1, "ave")
> d3 <- cophenetic(hc2)
> cor_average <- cor(d1,d3)
> #Complete Linkage
> hier_comp <- hclust(dist(data[,2:5]), method = "complete")
> #korelasi cophenetic
> hc3 <- hclust(d1, "complete")
> d4 <- cophenetic(hc3)
> cor_complete <- cor(d1,d4)
> #Centroid Linkage
> hier_cen <- hclust(dist(data[,2:5]), method = "centroid")
> #korelasi cophenetic
> hc4 <- hclust(d1, "centroid")
> d5 <- cophenetic(hc4)
> cor_centroid <- cor(d1,d5)
> #Ward
> hier_ward <- hclust(dist(data[,2:5]), method = "ward.D")
> #korelasi cophenetic
> hc5 <- hclust(d1,"ward.D")
> d6 <- cophenetic(hc5)
> cor_ward <- cor(d1,d6)
> #Ringkasan Pengelompokkan Objek
> Kor_coph<-data.frame(cor_single,cor_average,cor_complete,cor_centroid,cor_ward)
> Kor_coph
cor_single cor_average cor_complete cor_centroid cor_ward
1 0.9862435 0.9881963 0.9806145 0.9876183 0.9746887Koefisien cophenetic dihitung untuk mengevaluasi kesesuaian jarak dendrogram dengan jarak asli data, sehingga dapat memilih metode linkage yang paling sesuai.
3.9 Indeks Validitas
> inval <- clValid(datastand, 2:5, clMethods = "hierarchical", validation = "internal",
+ metric = "euclidean", method = "average")
> summary(inval)
Clustering Methods:
hierarchical
Cluster sizes:
2 3 4 5
Validation Measures:
2 3 4 5
hierarchical Connectivity 4.2869 7.2159 9.7159 11.8905
Dunn 0.8137 0.8759 0.4526 0.3831
Silhouette 0.8740 0.7537 0.7294 0.6329
Optimal Scores:
Score Method Clusters
Connectivity 4.2869 hierarchical 2
Dunn 0.8759 hierarchical 3
Silhouette 0.8740 hierarchical 2 Jumlah cluster optimal ditentukan dengan menggunakan fungsi
clValid() dari library clValid yang
mengevaluasi validitas internal cluster dengan indeks
connectivity, dunn dan silhouette.
3.10 Clustering Hirarki Menggunakan Metode Average Linkage
> hirave <- hclust(dist(scale(data[,2:5])), method = "average")
> hirave
Call:
hclust(d = dist(scale(data[, 2:5])), method = "average")
Cluster method : average
Distance : euclidean
Number of objects: 34 Metode average linkage dipilih berdasarkan hasil koefisien
cophenetic. fungsi hclust() digunakan untuk
membangun dendrogram.
3.11 Mengelompokkan observasi ke dalam cluster
> #Mengelompokkan Observasi ke dalam Cluster dengan memotong dendrogram menjadi 2 cluster dan memasukkannya ke dalam data frame
> anggotaave <- data.frame(id = data$Y, cutree(hirave, k = 2))
> anggotaave
id cutree.hirave..k...2.
1 Aceh 1
2 Sumatera Utara 1
3 Sumatera Barat 1
4 Riau 1
5 Jambi 1
6 Sumatera Selatan 1
7 Bengkulu 1
8 Lampung 1
9 Kep. Bangka Belitung 1
10 Kep. Riau 1
11 DKI Jakarta 1
12 Jawa Barat 2
13 Jawa Tengah 2
14 DI Yogyakarta 1
15 Jawa Timur 2
16 Banten 1
17 Bali 1
18 NTB 1
19 NTT 1
20 Kalimantan Barat 1
21 Kalimantan Tengah 1
22 Kalimantan Selatan 1
23 Kalimantan Timur 1
24 Kalimantan Utara 1
25 Sulawesi Utara 1
26 Sulawesi Tengah 1
27 Sulawesi Selatan 1
28 Sulawesi Tenggara 1
29 Gorontalo 1
30 Sulawesi Barat 1
31 Maluku 1
32 Maluku Utara 1
33 Papua Barat 1
34 Papua 1Setelah membangun dendrogram, cluster dipotong menjadi dua berdasarkan hasil dari indeks validitas yang menunjukkan bahwa dua cluster adalah jumlah yang optimal.
3.12 Visualisasi Dendrogram
> clus_hier <- eclust(datastand, FUNcluster = "hclust", k = 2, hc_method = "average", graph = TRUE)
> fviz_dend(clus_hier, rect = TRUE, cex = 0.5)Dendrogram divisualisasikan menggunakan fungsi
fviz_dend(). Visualisasi ini menunjukkan bagaimana
observasi dikelompokkan secara bertahap dengan cabang yang mewakili
provinsi yang lebih mirip satu sama lain.
3.13 Melihat Identitas Cluster dari Setiap Observasi
> idclus = clus_hier$cluster
> idclus
Aceh Sumatera Utara Sumatera Barat
1 1 1
Riau Jambi Sumatera Selatan
1 1 1
Bengkulu Lampung Kep. Bangka Belitung
1 1 1
Kep. Riau DKI Jakarta Jawa Barat
1 1 2
Jawa Tengah DI Yogyakarta Jawa Timur
2 1 2
Banten Bali NTB
1 1 1
NTT Kalimantan Barat Kalimantan Tengah
1 1 1
Kalimantan Selatan Kalimantan Timur Kalimantan Utara
1 1 1
Sulawesi Utara Sulawesi Tengah Sulawesi Selatan
1 1 1
Sulawesi Tenggara Gorontalo Sulawesi Barat
1 1 1
Maluku Maluku Utara Papua Barat
1 1 1
Papua
1 Setelah pengelompokan selesai, identitas cluster dari setiap provinsi dapat dilihat untuk mengetahui provinsi mana yang tergabung dalam cluster tertentu.
3.14 Menghitung rata-rata setiap variabel dalam masing-masing cluster
> aggregate(data,list(idclus),mean)
Group.1 Y X1 X2 X3 X4
1 1 NA 51.09677 150.7097 236.9677 235.4839
2 2 NA 344.33333 1411.0000 997.6667 2188.6667Menghitung rata-rata setiap variabel dalam cluster tersebut
dengan fungsi aggregate untuk memahami karakteristik dari
setiap cluster.
4 HASIL DAN PEMBAHASAN
4.1 Statistika Deskriptif
Berdasarkan data yang digunakan, diperoleh hasil analisis statistika sebagai berikut:
Tabel 4.1 Hasil Statistika Deskriptif
| \(X_1\) | \(X_2\) | \(X_3\) | \(X_4\) | |
|---|---|---|---|---|
| Minimal | 10 | 18 | 60 | 63 |
| Kuartil 1 | 28.5 | 59.75 | 177.5 | 112 |
| Median | 44. | 110.5 | 228 | 228.5 |
| Mean | 76.97 | 261.91 | 304.1 | 407.8 |
| Kuartil 3 | 72.25 | 223.75 | 341.5 | 358.2 |
| Maksimal | 424 | 1772 | 1105 | 2358 |
Berdasarkan hasil statistika deskriptif pada tabel 4.1 diatas didapatkan informasi sebagai berikut:
Variabel \(X_1\) yaitu jumlah desa/kelurahan yang memiliki rumah sakit, jumlah terendah tercatat sebanyak 10 desa/kelurahan, sementara jumlah tertinggi mencapai 424 desa/kelurahan. Rata-rata jumlah desa/kelurahan yang memiliki rumah sakit adalah 76.97, dengan nilai tengah sebesar 44. Hal tersebut mengindikasikan bahwa sebagian besar provinsi memiliki jumlah desa/kelurahan dengan rumah sakit yang relatif rendah.
Pada variabel \(X_2\) yaitu jumlah desa/kelurahan yang memiliki poliklinik, jumlah terendah tercatat sebanyak 18 desa/kelurahan, sementara jumlah tertinggi mencapai dan 1.772 desa/kelurahan. Rata-rata jumlah desa/kelurahan yang memiliki poliklinik adalah 261.91, dengan nilai tengahnya sebesar 110.50. Hal tersebut mengindikasikan bahwa terdapat beberapa provinsi dengan jumlah poliklinik yang sangat tinggi sehingga memengaruhi rata-rata keseluruhan.
Pada variabel \(X_3\) yaitu jumlah desa/kelurahan yang memiliki puskesmas, jumlah terendah tercatat sebanyak 60 desa/kelurahan, sementara jumlah tertinggi mencapai 1.105 desa/kelurahan. Rata-rata jumlah desa/kelurahan yang memiliki puskesmas adalah 304.1, dengan nilai tengah sebesar 228.0. Hal tersebut mengindikasikan bahwa distribusi puskesmas relatif lebih merata dibandingkan dengan poliklinik.
Pada Variabel \(X_4\) yaitu jumlah desa/kelurahan yang memiliki apotek, jumlah terendah tercatat sebanyak 63 desa/kelurahan, sementara jumlah tertinggi mencapai 2.358 desa/kelurahan. Rata-rata jumlah desa/kelurahan yang memiliki apotk adalah 407.8 dengan nilai tengah sebesar 228.5. Hal tersebut mengindikasikan adanya provinsi-provinsi dengan ketersediaan apotek yang sangat tinggi dibandingkan rata-rata nasional.
Secara keseluruhan, hasil ini mencerminkan adanya ketimpangan yang signifikan dalam ketersediaan sarana kesehatan di desa/kelurahan antar provinsi di Indonesia, yang menjadi alasan utama perlunya dilakukan analisis cluster untuk mengelompokkan provinsi berdasarkan karakteristik ini.
4.2 Pengujian Asumsi
4.2.1 Uji Sampel Representatif (Kaiser Meyer Olkin Test)
Uji sampel representatif menggunakan uji Kaiser Mayer Olkin (KMO) dilakukan untuk menguji apakah sampel telah representatif atau mewakili populasi. Tabel 4.2 berikut menyajikan hasil uji KMO:
Tabel 4.2 Hasil Uji KMO
| \(X_1\) | \(X_2\) | \(X_3\) | \(X_4\) | |
|---|---|---|---|---|
| Nilai Uji KMO | 0.86 | 0.90 | 0.92 | 0.87 |
Berdasarkan hasil uji KMO pada tabel diatas, dapat diketahui bahwa pada masing masing variabel tersebut bernilai lebih dari 0.5, sehingga dapat disimpulkan bahwa sampel telah cukup untuk bisa dilanjutkan analisis cluster.
4.2.2 Uji Non-Multikolinearitas
Uji Non-Multikolinearitas dapat dilihat dari korelasi antar variabel. Apabila nilai mutlak dari korelasi lebih dari 0.8 maka dapat dikatakan terjadi multikolinearitas. Tabel 4.3 berikut menyajikan hasil uji Non-Multikolinearitas:
Tabel 4.3 Hasil Uji Non-Multikolinearitas
| \(X_1\) | \(X_2\) | \(X_3\) | \(X_4\) | |
|---|---|---|---|---|
| \(X_1\) | 1.0000000 | 0.9401167 | 0.9302608 | 0.9513820 |
| \(X_2\) | 1.0000000 | 0.9199765 | 0.9414364 | |
| \(X_3\) | 1.0000000 | 0.9216815 | ||
| \(X_4\) | 1.0000000 |
Berdasarkan uji Non-Multikolinearitas diatas, dapat dilihat bahwa nilai korelasi antar variabel lebih dari 0.8. Sehingga dapat disimpulkan bahwa terjadi multikolinearitas antar variabel dan diatasi dengan PCA (Principal Component Analysist).
4.2.2.1 Penanganan Multikolinearitas dengan PCA
Dalam PCA dapat diketahui seberapa banyak keragaman data yang dijelaskan oleh setiap komponen utama. Tabel 4.4 berikut menyajikan seberapa besar kontribusi masing-masing komponen dari total keragaman:
Tabel 4.4 Nilai Kumulatif Eigen
| Komponen | Proporsi Variansi |
|---|---|
| 1 | 0.9637127 |
| 2 | 0.02302039 |
| 3 | 0.01225334 |
| 4 | 0.001013614 |
Berdasarkan tabel diatas, dapat dilihat bahwa pada komponen pertama telah menggambarkan 96.37% dari total keragaman. Sehingga, banyak komponen yang akan digunakan adalah satu komponen. Berdasarkan nilai kumulatif eigen dapat diketahui nilai komponen utama untuk komponen terpilih yang disajikan pada tabel berikut:
Tabel 4.5 Nilai Komponen Utama Terpilih
| Variabel | \(X_1\) | \(X_2\) | \(X_3\) | \(X_4\) |
| Y | 0.5026 | 0.4999 | 0.4959 | 0.5016 |
Berdasarkan tabel diatas, persamaan PCA yang terbentuk adalah:
\[ Y = 0.5026 X_1 + 0.4999 X_2 + 0.4959 X_3 + 0.5016 X_4 \]
4.3 Standarisasi Data
> datastand
[,1]
Aceh 0.03607462
Sumatera Utara 1.11619213
Sumatera Barat -0.18212008
Riau -0.10090228
Jambi -0.39224127
Sumatera Selatan -0.04411957
Bengkulu -0.51188737
Lampung 0.05442836
Kep. Bangka Belitung -0.66174400
Kep. Riau -0.61689731
DKI Jakarta -0.03694822
Jawa Barat 3.18448462
Jawa Tengah 2.62140830
DI Yogyakarta -0.37038707
Jawa Timur 3.06771383
Banten 0.14702668
Bali -0.39937004
NTB -0.36871301
NTT -0.12978485
Kalimantan Barat -0.36683699
Kalimantan Tengah -0.48859220
Kalimantan Selatan -0.34857519
Kalimantan Timur -0.36700721
Kalimantan Utara -0.73373479
Sulawesi Utara -0.42385450
Sulawesi Tengah -0.40833284
Sulawesi Selatan 0.25242091
Sulawesi Tenggara -0.34917970
Gorontalo -0.64464039
Sulawesi Barat -0.69703672
Maluku -0.50120291
Maluku Utara -0.60575803
Papua Barat -0.57510152
Papua -0.15478140
attr(,"scaled:center")
[1] 2.938826e-17
attr(,"scaled:scale")
[1] 1.950006Hasil standarisasi data diatas menunjukkan bahwa nilai-nilai variabel dalam dataset telah disesuaikan dengan memiliki rata-rata 0 dan simpangan baku 1. Setelah proses standarisasi, setiap variabel kini berada pada skala yang sama, sehingga tidak ada variabel yang mendominasi dalam analisis selanjutnya. Dengan demikian, standarisasi data ini memastikan bahwa semua variabel yang digunakan dalam analisis cluster dapat memberikan pengaruh yang proporsional terhadap hasil clustering.
4.4 Koefisien Korelasi Cophenetic
Koefisien korelasi cophenetic digunakan untuk menentukan metode terbaik yang akan digunakan dalam analisis cluster. Metode dengan nilai korelasi paling mendekati 1 yang akan dipilih sebagai metode terbaik dalam penelitian ini. Tabel 4.6 berikut akan menyajikan hasil koefisien korelasi cophenetic:
Tabel 4.6 Hasil Koefisien Korelasi Cophenetic
| Metode | Koefisien Korelasi |
|---|---|
| Single Linkage | 0.9862435 |
| Average Linkage | 0.9881963 |
| Complete Linkage | 0.9806145 |
| Centroid Linkage | 0.9876183 |
| Ward | 0.9746887 |
Berdasarkan output koefisien korelasi cophenetic diatas, terlihat bahwa metode average linkage memiliki nilai koefisien korelasi yang paling mendekati 1 dan tertinggi dibandingkan dengan metode lain. Sehingga metode Average Linkage dipilih sebagai metode terbaik dalam penelitian ini.
4.5 Indeks Validitas
Dalam memilih dan menentukan jumlah cluster terbaik pada analisis cluster digunakan 3 aturan indeks validitas cluster, yaitu Indeks Connectivity, Dunn dan Silhoutte. Tabel 4.7 berikut akan menyajikan hasil penentuan jumlah cluster optimal:
Tabel 4.7 Hasil Indeks Validitas
| Indeks | Nilai | Jumlah Cluster |
|---|---|---|
| connectivity | 4.2869048 | 2 |
| Dunn | 0.8758974 | 3 |
| Silhouett | 0.8739967 | 2 |
Berdasarkan hasil indeks validitas pada tabel 4.7 diatas didapatkan informasi sebagai berikut:
Nilai connectivity untuk 2 cluster lebih kecil (4.2869) dibandingkan dengan cluster lainnya. Hal tersebut menunjukkan bahwa 2 cluster lebih baik dalam menjaga konektivitas antar data.
Nilai dunn index untuk 3 cluster (0.9399) lebih tinggi dibandingkan dengan cluster lainnya. Hal tersebut menunjukkan bahwa 2 cluster memiliki pemisahan yang lebih baik antar cluster.
Nilai silhouette untuk 2 cluster (0.8364) lebih tinggi dibandingkan dengan cluster lainnya. Hal tersebut menunjukkan bahwa data lebih cocok untuk dikelompokkan menjadi 2 cluster.
Berdasarkan hasil uji validitas dengan indeks validitas, jumlah cluster yang terbaik adalah 2.
4.6 Analisis Cluster Hierarki
> anggotaave
id cutree.hirave..k...2.
1 Aceh 1
2 Sumatera Utara 1
3 Sumatera Barat 1
4 Riau 1
5 Jambi 1
6 Sumatera Selatan 1
7 Bengkulu 1
8 Lampung 1
9 Kep. Bangka Belitung 1
10 Kep. Riau 1
11 DKI Jakarta 1
12 Jawa Barat 2
13 Jawa Tengah 2
14 DI Yogyakarta 1
15 Jawa Timur 2
16 Banten 1
17 Bali 1
18 NTB 1
19 NTT 1
20 Kalimantan Barat 1
21 Kalimantan Tengah 1
22 Kalimantan Selatan 1
23 Kalimantan Timur 1
24 Kalimantan Utara 1
25 Sulawesi Utara 1
26 Sulawesi Tengah 1
27 Sulawesi Selatan 1
28 Sulawesi Tenggara 1
29 Gorontalo 1
30 Sulawesi Barat 1
31 Maluku 1
32 Maluku Utara 1
33 Papua Barat 1
34 Papua 1Dihasilkan 2 cluster (cluster 1 dan cluster 2) berdasarkan jumlah sarana kesehatan desa/kelurahan pada tahun 2021. Cluster 1 terdiri dari provinsi-provinsi yang memiliki jumlah sarana kesehatan desa/kelurahan yang lebih rendah, sedangkan cluster 2 terdiri dari provinsi-provinsi yang memiliki jumlah sarana kesehatan desa/kelurahan yang lebih tinggi. Berikut merupakan tabel pengelompokan hasil analisis cluster:
Tabel 4.8 Pengelompokan Hasil Analisis Cluster
| Cluster | Provinsi | Label |
|---|---|---|
| 1 | Aceh, Sumatera Utara, Sumatera Barat, Riau, Jambi, Sumatera Selatan, Bengkulu, Lampung, Kepulauan Bangka Belitung, Kepulauan Riau, DKI Jakarta, DI Yogyakarta, Banten, Bali, Nusa Tenggara Barat, Nusa Tenggara Timur, Kalimantan Barat, Kalimantan Tengah, Kalimantan Selatan, Kalimantan Timur, Kalimantan Utara, Sulawesi Utara, Sulawesi Tengah, Sulawesi Selatan, Sulawesi Tenggara, Gorontalo, Sulawesi Barat, Maluku, Maluku Utara, Papua, Papua Barat | Jumlah Sarana Kesehatan Desa/Kelurahan Terbatas |
| 2 | Jawa Timur, Jawa Barat, Jawa Tengah | Jumlah Sarana Kesehatan Desa/Kelurahan Tinggi |
> clus_hier <- eclust(datastand, FUNcluster = "hclust", k = 2, hc_method = "average", graph = TRUE)
> fviz_dend(clus_hier, rect = TRUE, cex = 0.5)Berdasarkan hasil analisis cluster hierarki yang divisualisasikan melalui dendrogram diatas, dapat dilihat struktur dan pola pada dendogram menunjukkan bahwa objek-objek dalam berkelompok menjadi dua bagian. Kemudian, dengan melihat selisih terpanjang dari gambar dendogram diatas terlihat bahwa pemotongan yang tepat akan menghasilkan 2 cluster, dimana pada cluster 2 yang terdiri dari provinsi-provinsi yang memiliki jumlah sarana kesehatan desa/kelurahan yang lebih tinggi ditunjukkan pada dendogram berwarna merah yang terdiri dari Jawa Barat, Jawa Tengah, Jawa Timur dan cluster 1 yang terdiri dari provinsi-provinsi yang memiliki jumlah sarana kesehatan desa/kelurahan yang lebih rendah ditunjukkan pada dendogram berwarna hijau yang terdiri dari 31 provinsi lainnya. Oleh karena itu jumlah cluster untuk pengelompokan provinsi berdasarkan jumlah jumlah sarana kesehatan desa/kelurahan pada tahun 2021 yaitu sebanyak dua. Garis horizontal menunjukkan menunjukkan provinsi yang dikelompokkan dan garis vertikal menunjukkan jarak euclidean antar provinsi.
Dari dendrogram juga tersebut juga terlihat bahwa tingkat kemiripan antar provinsi dalam cluster 1 lebih tinggi yang ditunjukkan dari penggabungan pada nilai height yang lebih rendah. Hal tersebut mengindikasikan bahwa provinsi-provinsi dalam cluster ini memiliki karakteristik yang lebih seragam dalam hal sarana kesehatan desa/kelurahan. Sebaliknya, cluster 2 digabungkan pada nilai height yang lebih tinggi yang menunjukkan perbedaan signifikan antara provinsi-provinsi di cluster 2 dan provinsi lainnya di cluster 1. Hal tersebut juga mengindikasikan bahwa karakteristik ketiga provinsi ini dalam hal sarana kesehatan desa/kelurahan berbeda cukup jauh dibandingkan provinsi lainnya. Secara keseluruhan, hasil ini menunjukkan adanya kesenjangan regional dalam penyediaan sarana kesehatan desa/kelurahan.
4.7 Identifikasi Karakteristik Tiap Cluster
Setelah menentukan jumlah cluster beserta anggota yang terbentuk, maka selanjutnya ialah memberikan ciri spesifik untuk menggambarkan isi cluster tersebut. Setiap cluster memiliki karakteristik yang berbeda yang dapat dilihat melalui nilai rata-rata masing masing variabel. Nilai ratarata setiap variabel pada masing-masing cluster disajikan pada tabel berikut:
Tabel 4.9 Tabel Karakteristik Setiap Cluster
| Cluster | \(X_1\) | \(X_2\) | \(X_3\) | \(X_4\) |
|---|---|---|---|---|
| 1 | 51.097 | 150.71 | 236.967 | 235.484 |
| 2 | 344.334 | 1411.00 | 997.667 | 2188.667 |
Berdasarkan hasil analisis menggunakan fungsi aggregate
diatas, dapat dilihat perbedaan yang signifikan dalam rata-rata jumlah
sarana kesehatan di desa/kelurahan antara dua cluster provinsi
di Indonesia. Pada cluster 1, provinsi-provinsi didalamnya
memiliki rata-rata jumlah sarana kesehatan yang lebih terbatas. Jumlah
desa/kelurahan yang memiliki rumah sakit (\(X_1\)) rata-rata hanya 51.10, dengan jumlah
poliklinik (\(X_2\)) sebesar 150.71,
puskesmas (\(X_3\)) sekitar 236.97, dan
apotek (\(X_4\)) sebanyak 235.48. Ini
menunjukkan bahwa provinsi dalam cluster ini cenderung memiliki sarana
kesehatan yang lebih rendah di tingkat desa/kelurahan.
Sementara itu, pada cluster 2, provinsi-provinsi yang termasuk dalam cluster ini memiliki akses yang jauh lebih banyak terhadap sarana kesehatan. Jumlah desa/kelurahan dengan rumah sakit (\(X_1\)) rata-rata 344.33, jumlah poliklinik (\(X_2\)) mencapai 1411.00, puskesmas (\(X_3\)) sebesar 997.67, dan apotek (\(X_4\)) rata-rata 2188.67. Hal ini menggambarkan bahwa provinsi dalam cluster ini memiliki penyediaan sarana kesehatan yang tinggi di tingkat desa/kelurahan dibandingkan dengan cluster pertama.
5 KESIMPULAN DAN SARAN
5.1 Kesimpulan
Berdasarkan analisis cluster hierarki yang dilakukan, provinsi-provinsi di Indonesia dapat dikelompokkan menjadi dua cluster utama berdasarkan jumlah sarana kesehatan yang dimiliki desa/kelurahan pada tahun 2021. Cluster pertama mencakup 31 provinsi yang terdiri dari Aceh, Sumatera Utara, Sumatera Barat, Riau, Jambi, Sumatera Selatan, Bengkulu, Lampung, Kepulauan Bangka Belitung, Kepulauan Riau, DKI Jakarta, DI Yogyakarta, Banten, Bali, Nusa Tenggara Barat, Nusa Tenggara Timur, Kalimantan Barat, Kalimantan Tengah, Kalimantan Selatan, Kalimantan Timur, Kalimantan Utara, Sulawesi Utara, Sulawesi Tengah, Sulawesi Selatan, Sulawesi Tenggara, Gorontalo, Sulawesi Barat, Maluku, Maluku Utara, Papua, Papua Barat yang menunjukkan karakteristik jumlah sarana kesehatan yang relatif rendah atau distribusi yang kurang merata. Cluster kedua terdiri dari provinsi Jawa Barat, Jawa Tengah, dan Jawa Timur, yang memiliki jumlah sarana kesehatan yang lebih tinggi dan distribusi yang lebih merata dibandingkan provinsi lainnya. Hasil ini mencerminkan adanya perbedaan signifikan dalam tingkat ketersediaan sarana kesehatan di antara provinsi-provinsi Indonesia, terutama antara Pulau Jawa dan wilayah lain.
5.2 Saran
Berdasarkan hasil penelitian yang dilakukan, peneliti mengajukan beberapa saran yang sekiranya dapat memberikan manfaat kepada pihak-pihak yang terkait atas hasil penelitian. Adapun saran-saran yang dapat diberikan adalah sebagai berikut:
Bagi Penelitian Selanjutnya
Penelitian selanjutnya dapat memperluas analisis dengan mempertimbangkan variabel tambahan seperti tenaga medis, tingkat pendidikan, dan faktor sosial ekonomi untuk memberikan gambaran yang lebih komprehensif mengenai penyediaan sarana kesehatan. Selain itu, penerapan metode clustering lain, seperti K-means atau DBSCAN bisa digunakan untuk membandingkan hasil dan memastikan temuan yang lebih kuat dan dapat diandalkan.
Bagi Pemerintah
Pada provinsi di cluster yang memiliki akses terbatas terhadap sarana kesehatan (cluster 1), pemerintah sebaiknya fokus pada peningkatan distribusi dan pembangunan fasilitas kesehatan, seperti rumah sakit, puskesmas, dan apotek di daerah-daerah yang kurang terlayani. Program seperti penyediaan dana pembangunan infrastruktur kesehatan, peningkatan tenaga medis, serta pemberian subsidi untuk fasilitas kesehatan di desa/kelurahan dapat membantu mengurangi kesenjangan ini. Sementara itu, untuk provinsi di cluster dengan akses lebih baik (cluster 2), pemerintah bisa mengembangkan program peningkatan kualitas layanan kesehatan, seperti pelatihan untuk tenaga medis, peningkatan fasilitas kesehatan yang sudah ada, serta pemanfaatan teknologi digital untuk meningkatkan akses dan efisiensi layanan kesehatan di daerah tersebut.
6 DAFTAR PUSTAKA
Cahyoningtyas, R. (2019). Metode Ward dan Average Linkage Clustering untuk Segmentasi Objek Wisata di Malang Raya [Skripsi, Universitas Brawijaya]. Malang: Universitas Brawijaya.
Johnson, R. A., & Wichern, D. W. (2002). Applied multivariate statistical analysis. Prentice Hall.
Kaufman, L., & Rousseeuw, P. J. (2009). Finding groups in data: An introduction to cluster analysis. John Wiley & Sons.
Mahmudan, A. (2020). Pengelompokan Kabupaten/Kota di Jawa Tengah Berdasarkan Kasus COVID-19 Menggunakan K-Means Clustering. Jurnal Matematika, Statistika dan Komputasi, 17(3), 123–135.
Purnama Sari, D. (2017). Analisis Faktor-Faktor yang Mempengaruhi Keputusan Konsumen dalam Memilih E-Commerce Menggunakan Analisis Regresi Logistik [Skripsi, Universitas Brawijaya]. Malang: Universitas Brawijaya.
Santoso, S. (2015). Penggunaan Statistika Deskriptif dalam Analisis Data. Jurnal Teknologi Informasi, 11(2), 123-130.
Suhaeni, C., Kurnia, A., & Ristiyanti. (2018). Perbandingan hasil pengelompokan menggunakan analisis cluster berhirarki, K-Means cluster, dan cluster ensemble (Studi kasus data indikator pelayanan kesehatan ibu hamil). Jurnal Media Infotama, 14(1), 31-42.
Wooldridge, J. M. (2016). Introductory econometrics: A modern approach. Cengage Learning.
Walpole, R. E. (1995). Pengantar Statistika (Edisi ke-3). Jakarta: Gramedia.
Soraya, Y. (2011). Perbandingan kinerja metode single linkage, metode complete linkage dan metode k-means dalam analisis cluster. Universitas Negeri Semarang