1 PENDAHULUAN
1.1 Latar Belakang
Pemerataan akses pendidikan merupakan salah satu prioritas pembangunan nasional karena menjadi fondasi peningkatan kualitas sumber daya manusia. Meskipun pemerintah telah melakukan berbagai upaya pemerataan, kondisi fasilitas pendidikan masih menunjukkan ketimpangan antarwilayah. Ketimpangan ini tampak pada perbedaan jumlah desa yang memiliki fasilitas sekolah di tingkat pendidikan tertentu, terutama antarprovinsi, sehingga menimbulkan kesenjangan akses layanan pendidikan bagi masyarakat. Data “Jumlah Desa yang Memiliki Fasilitas Sekolah Menurut Provinsi dan Tingkat Pendidikan Tahun 2024” menggambarkan variasi tersebut dan menunjukkan bahwa tidak semua provinsi berada pada kondisi pemerataan yang sama.
Kondisi ketidaksamaan penyediaan fasilitas pendidikan ini menjadi isu krusial karena ketersediaan sarana sekolah di tingkat desa merupakan indikator dasar pembangunan wilayah. Provinsi dengan desa yang minim fasilitas sekolah berpotensi menghadapi hambatan dalam pemerataan pendidikan, peningkatan IPM, serta pengembangan ekonomi jangka panjang. Oleh sebab itu, diperlukan analisis yang tidak hanya melihat nilai rata-rata atau persebaran data, tetapi mampu mengungkap pola kemiripan dan perbedaan antarprovinsi secara menyeluruh.
Untuk menjawab kebutuhan tersebut, analisis cluster hirarki merupakan metode yang relevan karena dapat mengelompokkan provinsi berdasarkan kemiripan karakteristik fasilitas pendidikan yang dimiliki. Metode ini menampilkan struktur pengelompokan melalui dendrogram sehingga pola hubungan antarprovinsi dapat diinterpretasikan dengan lebih jelas (Putra & Lestari, 2020). Selain itu, metode pengelompokan telah banyak dimanfaatkan dalam penelitian pemerataan pembangunan karena mampu membantu perumusan kebijakan yang lebih tepat sasaran (Anggraini, 2021).
Berdasarkan uraian tersebut, penelitian ini dilakukan untuk memperoleh gambaran mengenai pengelompokan provinsi di Indonesia berdasarkan ketersediaan fasilitas sekolah di tingkat desa. Hasil analisis diharapkan dapat menjadi informasi komprehensif yang mendukung identifikasi wilayah prioritas serta perencanaan kebijakan pemerataan pendidikan.
1.2 Rumusan Masalah
Berdasarkan latar belakang tersebut, maka rumusan masalah dalam penelitian ini adalah:
Bagaimana pola pengelompokan provinsi di Indonesia berdasarkan jumlah desa yang memiliki fasilitas sekolah menurut tingkat pendidikan pada tahun 2024?
Apa karakteristik masing-masing kelompok provinsi yang terbentuk dari hasil analisis cluster hirarki terkait pemerataan fasilitas pendidikan di tingkat desa?
1.3 Tujuan
Bedasarkan dengan rumusan masalah di atas, tujuan penelitian ini adalah:
Mengidentifikasi dan membentuk kelompok provinsi di Indonesia berdasarkan kemiripan jumlah desa yang memiliki fasilitas sekolah menurut tingkat pendidikan menggunakan analisis cluster hirarki.
Menganalisis karakteristik setiap kelompok provinsi yang diperoleh guna memberikan gambaran komprehensif mengenai tingkat pemerataan fasilitas pendidikan antar wilayah.
2 TINJAUAN PUSTAKA
2.1 Statistika Deskriptif
Statistika deskriptif merupakan metode dalam ilmu statistik yang digunakan untuk menggambarkan, merangkum, dan menyajikan data sehingga karakteristik utama dari suatu kumpulan data dapat dipahami dengan jelas tanpa melakukan penarikan kesimpulan terhadap populasi yang lebih luas. Melalui proses pengolahan dan penyajian tersebut, statistika deskriptif membantu menyusun informasi secara sistematis agar lebih mudah diinterpretasikan (Martias, 2021; Subhaktiyasa et al., 2025). Dalam konteks penelitian, metode ini berfungsi sebagai langkah awal untuk memberikan gambaran umum mengenai pola atau kecenderungan data sebelum dilakukan analisis lebih lanjut.
2.2 Analisis Cluster
Analisis cluster merupakan salah satu teknik dalam analisis multivariat yang digunakan untuk mengelompokkan objek berdasarkan tingkat kemiripan atributnya. Melalui metode ini, objek-objek yang memiliki karakteristik serupa akan dikelompokkan ke dalam satu klaster, sedangkan objek yang berbeda ditempatkan pada klaster lainnya (Hair et al., 2014). Pendekatan ini memungkinkan peneliti menyederhanakan data yang kompleks, mengidentifikasi pola tertentu, serta memahami struktur alami yang terdapat dalam data tanpa melibatkan variabel terikat (unsupervised).
Proses pengelompokan dilakukan dengan mengukur kedekatan atau jarak antar objek melalui ukuran jarak atau asosiasi tertentu. Objek yang jaraknya relatif dekat dianggap memiliki kemiripan yang tinggi dan dikelompokkan bersama, sedangkan objek dengan jarak yang lebih jauh dimasukkan ke kelompok yang berbeda (Han et al., 2011). Dengan demikian, analisis cluster membantu menghasilkan representasi data yang lebih ringkas dan terstruktur sehingga memudahkan proses interpretasi serta pengambilan keputusan.
Tahap-tahap dalam analisis cluster yaitu sebagai berikut :
Melakukan proses standarisasi variabel untuk menyetarakan skala antar variabel.
Menentukan ukuran kemiripan, yaitu dengan menghitung jarak antar dua objek.
Memilih metode pengelompokan, baik hierarki maupun non-hierarki.
Menentukan jumlah cluster berdasarkan kriteria statistik dan pertimbangan substantif.
Interpretasi hasil cluster, yaitu penjelasan karakteristik dari masing-masing kelompok yang terbentuk.
Sebagai teknik yang bersifat eksploratif, analisis cluster tidak menghasilkan satu struktur pengelompokan yang mutlak, namun memberikan konfigurasi kelompok yang paling menggambarkan pola kemiripan dalam data (Putra & Yasin, 2019).
2.2.1 Uji Asumsi Analisis Cluster
- Uji Sampel Representatif
Sampel dikatakan representatif apabila data yang digunakan mampu menggambarkan struktur populasi yang sebenarnya. Untuk memastikan kelayakan sampel dalam analisis multivariat seperti analisis cluster, salah satu pengujian yang umum digunakan adalah Kaiser Meyer Olkin (KMO).
Menurut penelitian terbaru, nilai KMO ≥ 0,50 menunjukkan bahwa hubungan antar variabel cukup kuat sehingga data dinilai layak digunakan sebagai dasar pembentukan cluster (Ulfah & Lestari, 2021; Rosyidah et al., 2019). Nilai KMO yang mendekati 1 mengindikasikan bahwa pola korelasi antar variabel memadai dan sampel telah representatif untuk dianalisis lebih lanjut.
- Uji Non Multikolinearitas
Uji multikolinearitas bertujuan untuk memastikan bahwa antar variabel tidak memiliki hubungan yang terlalu tinggi. Pengujian dilakukan menggunakan nilai Variance Inflation Factor (VIF) dengan rumus:
\[ \text{VIF} = \frac{1}{1 - R^2} \]
Suatu variabel dinyatakan tidak mengalami multikolinearitas apabila nilai VIF < 10, sedangkan nilai VIF ≥ 10 menunjukkan adanya multikolinearitas (Hair et al., 2019).
2.2.2 Standarisasi Variabel
Standarisasi dilakukan agar setiap variabel berada pada skala yang sama sehingga tidak ada variabel yang mendominasi proses pengelompokan. Nilai standar dihitung dengan rumus:
\[ Z_i = \frac{X_i - \bar{X}}{\sigma} \]
Keterangan:
\(X_i\) : nilai ke-\(i\)
\(\bar{X}\) : rata-rata variabel
\(\sigma\) : simpangan baku variabel
2.2.3 Jarak Analisis Cluster
Dalam analisis cluster, ukuran jarak digunakan untuk menilai tingkat kemiripan antar objek. Semakin kecil jarak antar dua objek, semakin besar kemungkinan keduanya berada pada cluster yang sama. Beberapa ukuran jarak yang paling sering digunakan adalah sebagai berikut.
- Jarak Euclidean
Mengukur jarak lurus antar dua objek dalam ruang multivariat.
\[ d(x, y) = \sqrt{\sum_{i=1}^n (x_i - y_i)^2} \]
- Jarak Manhattan
Menghitung total selisih absolut antar variabel.
\[ d(x, y) = \sum_{i=1}^n |x_i - y_i| \]
- Jarak Mahalanobis
Mempertimbangkan varians–kovarians antar variabel, cocok untuk data yang saling berkorelasi.
\[ d(x, y) = \sqrt{(x - y)^T S^{-1} (x - y)} \]
2.2.4 Analisis Cluster Hierarki
Analisis cluster hirarki merupakan teknik pengelompokan di mana jumlah cluster belum ditentukan sebelumnya. Proses pembentukan cluster dilakukan secara bertahap melalui dua pendekatan, yaitu :
- Metode Agglomerative
Pada metode agglomerative, proses dimulai dengan menganggap setiap objek sebagai satu cluster. Selanjutnya, objek yang memiliki tingkat kemiripan tertinggi digabungkan menjadi cluster baru. Penggabungan terus dilakukan hingga seluruh objek berada dalam satu cluster besar. Metode ini terdiri dari beberapa teknik sebagai berikut.
- Single Linkage
Metode single linkage menentukan jarak antar cluster berdasarkan pasangan objek dengan jarak paling kecil (nearest neighbor).
\[ d_{(ij)k} = \min(d_{ik}, d_{jk}) \]
- Complete Linkage
Complete linkage menggunakan jarak terjauh antara dua objek pada cluster yang berbeda (farthest neighbor).
\[ d_{(ij)k} = \max(d_{ik}, d_{jk}) \]
- Average Linkage
Average linkage menghitung jarak antar cluster berdasarkan rata-rata jarak seluruh pasangan objek dari dua cluster.
\[ d_{(ij)k} = \frac{1}{n_i n_j} \sum_{a=1}^{n_i} \sum_{b=1}^{n_j} \sqrt{\sum_{p=1}^{k} (x_{ap} - y_{bp})^2} \]
- Ward’s Method
Ward’s method menggabungkan cluster yang menimbulkan peningkatan jumlah kuadrat error (SSE) paling kecil. Pendekatan ini menghasilkan cluster yang variansnya minimal.
\[ ESS = \sum_{j=1}^{k} \left( \sum_{i=1}^{n_j} x_{ij}^2 - \frac{1}{n_j} \left( \sum_{i=1}^{n_j} x_{ij} \right)^2 \right) \]
- Centroid Linkage
Centroid linkage menentukan jarak antar cluster menggunakan jarak antara centroid (rata-rata) dua cluster.
\[ d_{ij} = d\left( \frac{1}{n_i}\sum_{k=1}^{n_i} x_{ik},\; \frac{1}{n_j}\sum_{l=1}^{n_j} x_{jl} \right) \]
- Metode Divisive
Metode divisive bekerja secara berlawanan dengan agglomerative. Proses dimulai dari satu cluster besar yang berisi seluruh objek, kemudian dipisah menjadi dua cluster. Pemisahan terus dilakukan hingga setiap objek menjadi cluster tunggal.
2.2.5 Indeks Validitas
Indeks validasi digunakan untuk menilai kualitas hasil pengelompokan. Pengujian ini membantu menentukan apakah jumlah cluster yang terbentuk sudah optimal dan apakah struktur cluster cukup baik. Beberapa indeks validasi yang sering digunakan antara lain :
- Silhouette Index
Indeks ini mengukur seberapa mirip objek dengan cluster tempat ia berada dibandingkan dengan cluster lain. Nilai berkisar antara −1 hingga 1. Nilai mendekati 1 menunjukkan struktur cluster yang baik.
\[ S(i) = \frac{b(i) - a(i)}{\max(a(i),\; b(i))} \]
Keterangan:
\(a(i)\) : rata-rata jarak objek i ke objek dalam cluster yang sama
\(b(i)\) : jarak rata-rata objek i ke cluster terdekat lainnya
- Davies–Bouldin Index
DBI mengukur kualitas cluster berdasarkan kekompakan cluster dan pemisahan antar cluster. Nilai yang lebih kecil menunjukkan hasil clustering lebih baik.
\[ DBI = \frac{1}{k} \sum_{i=1}^{k} \max_{j \neq i} \left( \frac{S_i + S_j}{M_{ij}} \right) \]
Keterangan:
\(S_i\) : rata-rata jarak intra‐cluster pada cluster ke-i
\(M_{ij}\) : jarak antar centroid cluster i dan j
- Indeks Dunn
Indeks Dunn mengevaluasi kualitas cluster berdasarkan rasio antara jarak minimum antar cluster dan diameter cluster terbesar. Nilai yang lebih besar menunjukkan struktur cluster yang lebih baik.
\[ D = \frac{\min_{i \neq j} d(C_i, C_j)}{\max_k \; \text{diam}(C_k)} \]
Keterangan :
\(d(C_i,C_j)\) : jarak minimum antar cluster
\(diam(C_k)\) : diameter (jarak maksimum antar anggota) cluster k
- Indeks C
Indeks C membandingkan jumlah jarak intra-cluster sebenarnya dengan jumlah jarak minimum dan maksimum yang mungkin terjadi. Nilai mendekati 0 menunjukkan cluster yang baik.
\[ C = \frac{S - S_{\min}}{S_{\max} - S_{\min}} \]
Keterangan :
\(S\) : total jarak intra-cluster aktual
\(S_{min}\) : jarak minimum yang mungkin
\(S_{max}\) : jarak maksimum yang mungkin
2.2.6 Koefisien Korelasi Cophenetic
Koefisien korelasi cophenetic digunakan untuk menilai sejauh mana struktur dendrogram mampu merepresentasikan jarak asli antar objek. Nilai mendekati 1 menunjukkan bahwa hasil pengelompokan hierarki memiliki tingkat kesesuaian yang baik dengan data awal.
Rumus:
\[ c = \frac{\sum_{i<j} (d_{ij} - \bar{d})(t_{ij} - \bar{t})} {\sqrt{\sum_{i<j} (d_{ij} - \bar{d})^2 \; \sum_{i<j}(t_{ij} - \bar{t})^2}} \]
Keterangan:
\(d_{ij}\) : jarak asli antar objek
ke-i dan ke-j
\(t_{ij}\) : jarak cophenetic (jarak
pada dendrogram)
\(\bar{d}\) : rata-rata jarak
asli
\(\bar{t}\) : rata-rata jarak
cophenetic
\(c\) : nilai koefisien korelasi
cophenetic
2.2.7 Dendogram
Dendrogram adalah diagram pohon yang digunakan untuk menggambarkan proses penggabungan cluster pada analisis cluster hierarki. Grafik ini menunjukkan objek mana yang digabung terlebih dahulu dan pada tingkat jarak berapa penggabungan terjadi. Semakin rendah tinggi penggabungan, semakin mirip kedua objek atau cluster tersebut.
3 DATA
Data yang digunakan merupakan data sekunder yang bersumber dari publikasi Jumlah Desa yang Memiliki Fasilitas Sekolah Menurut Provinsi dan Tingkat Pendidikan Tahun 2024 yang diambil melalui website resmi Badan Pusat Statistik (BPS).
4 SOURCE CODE
4.1 Library
Library berikut digunakan dalam proses pengolahan data, visualisasi, dan analisis cluster pada penelitian ini.
library("knitr")
library("psych")
library("GPArotation")
library("ggplot2")
library("cluster")
library("factoextra")
library("tidyverse")
library("car")
library("readxl")
library("MVN")
library("dendextend")
library("DT")
library("rmarkdown")
library("prettydoc")
library("clValid")
library("fastcluster")
library("dplyr")
library("kableExtra")Penjelasan Fungsi Library
library("knitr")digunakan untuk menghasilkan laporan dinamis serta mengatur tampilan kode pada R Markdown.library("psych")digunakan untuk melakukan analisis statistik dasar seperti reliabilitas dan analisis faktor.library("GPArotation")digunakan untuk melakukan rotasi faktor agar struktur faktor lebih mudah diinterpretasi.library("ggplot2")digunakan untuk membuat visualisasi data yang informatif dan berkualitas tinggi.library("cluster")digunakan untuk melakukan berbagai metode analisis cluster.library("factoextra")digunakan untuk mengekstrak dan memvisualisasikan hasil analisis clustering dan multivariat.library("tidyverse")digunakan untuk manipulasi dan pembersihan data secara efisien (dplyr, tidyr, readr, dll.).library("car")digunakan untuk melakukan diagnostik model dan pengujian asumsi statistik.library("readxl")digunakan untuk membaca dan mengimpor data dari file Excel.library("MVN")digunakan untuk melakukan uji normalitas multivariat serta visualisasinya.library("dendextend")digunakan untuk memodifikasi dan memperindah tampilan dendrogram.library("DT")digunakan untuk membuat tabel interaktif yang dapat di-scroll, diurutkan, dan dicari.library("rmarkdown")digunakan untuk menghasilkan laporan dalam format HTML, Word, atau PDF.library("prettydoc")digunakan untuk mempercantik tampilan laporan HTML pada R Markdown.library("clValid")digunakan untuk mengevaluasi metode clustering dan menentukan jumlah cluster optimal.library("fastcluster")digunakan untuk melakukan clustering dengan algoritma yang lebih cepat dan efisien.library("dplyr")digunakan untuk mengelola data secara efisien (select,mutate,group_by,summarize)library("kableExtra")digunakan untuk mempercantik dan memformat tabel agar tampil lebih rapi di R Markdown.
4.2 Impor Data
Fungsi read_excel() digunakan untuk mengambil data dari
file eksternal, kemudian hasil pembacaan tersebut disimpan dalam objek
bernama data sehingga dapat diolah lebih lanjut pada tahap
analisis.
4.3 Statistika Deskriptif
Fungsi summary() digunakan untuk menampilkan ringkasan
statistik dari setiap variabel dalam data. Fungsi ini memberikan
informasi seperti nilai minimum, maksimum, median, kuartil, serta
rata-rata, sehingga membantu memahami karakteristik dasar data sebelum
dilakukan analisis lebih lanjut.
4.4 Analisis Cluster
4.4.1 Uji Asumsi Analisis Cluster
- Uji Sampel Representatif
Fungsi KMO() digunakan untuk menghitung nilai
Kaiser-Meyer-Olkin sebagai uji kelayakan sampel sebelum dilakukan
analisis multivariat. Argumen data[,2:6] menunjukkan bahwa
perhitungan hanya diterapkan pada variabel yang berada pada kolom ke-2
hingga kolom ke-6 dari dataset. Hasil pengujian kemudian disimpan dalam
objek ujisampel.
- Uji Non-Multikolinearitas
Fungsi cor() digunakan untuk menghitung matriks korelasi
sebagai langkah awal mendeteksi multikolinearitas antar variabel.
Ekspresi data[,2:6] menunjukkan bahwa perhitungan korelasi
dilakukan pada variabel yang berada di kolom ke-2 hingga ke-6 dari
dataset. Parameter method = "pearson" digunakan untuk
menghitung korelasi Pearson. Hasilnya disimpan dalam objek
multikol sebagai dasar evaluasi multikolinearitas.
4.4.2 Standarisasi
Fungsi scale() digunakan untuk melakukan standarisasi
pada variabel numerik. Argumen data[,2:6] menunjukkan bahwa
proses standarisasi diterapkan hanya pada kolom ke-2 hingga ke-6 dalam
dataset. Hasil standarisasi disimpan dalam objek datastand
untuk digunakan pada analisis selanjutnya.
4.4.3 Perhitungan Jarak Euclidean
Fungsi dist() digunakan untuk menghitung jarak antar
objek dengan metode jarak euclidean.
4.4.4 Penentuan Model Linkage Terbaik
- Perhitungan Korelasi Cophenetic
hc_single <- hclust(jarak, "single")
cor.sing <- cor(jarak, cophenetic(hc_single))
hc_complete <- hclust(jarak, "complete")
cor.comp <- cor(jarak, cophenetic(hc_complete))
hc_avg <- hclust(jarak, "average")
cor.ave <- cor(jarak, cophenetic(hc_avg))
hc_centroid <- hclust(jarak, "centroid")
cor.centr <- cor(jarak, cophenetic(hc_centroid))
hc_ward <- hclust(jarak, "ward.D")
cor.ward <- cor(jarak, cophenetic(hc_ward))
KorCop <- data.frame(
Single = cor.sing,
Complete = cor.comp,
Average = cor.ave,
Centroid = cor.centr,
Ward = cor.ward
)Fungsi cophenetic() digunakan untuk menghitung jarak
antar‐objek sebagaimana direpresentasikan oleh dendrogram hasil
pengelompokan. Sementara itu, fungsi cor() digunakan untuk
mengukur tingkat kesesuaian antara jarak asli (berdasarkan matriks jarak
Euclidean) dengan jarak hasil dendrogram.
- Pembuatan Dendogram untuk 5 Metode Linkage
par(mfrow = c(2, 3))
plot(hclust(jarak, method = "single"), main = "Single Linkage", cex = 0.6)
plot(hclust(jarak, method = "complete"), main = "Complete Linkage", cex = 0.6)
plot(hclust(jarak, method = "average"), main = "Average Linkage", cex = 0.6)
plot(hclust(jarak, method = "centroid"), main = "Centroid Linkage", cex = 0.6)
plot(hclust(jarak, method = "ward.D"), main = "Ward Linkage", cex = 0.6)
par(mfrow = c(1, 1))Fungsi hclust() digunakan untuk menjalankan cluster
hirarki dengan 5 linkage yaitu single,
complete, average, centroid, dan
ward. Sementara itu, fungsi par(mfrow)
digunakan untuk membagi area grafik menjadi matriks tampilan berukuran 2
× 3 sehingga seluruh dendrogram dapat ditampilkan secara bersamaan dalam
satu kanvas plot.
4.4.5 Validasi Cluster
valid_avg <- clValid(
datastand,
nClust = 2:7,
clMethods = "hierarchical",
validation = "internal",
metric = "euclidean",
method = "average"
)
summary(valid_avg)Fungsi clValid() digunakan untuk mengevaluasi kualitas
hasil pengelompokan pada jumlah cluster 2 hingga 7. Dengan opsi
validation = "internal", fungsi ini menghitung tiga indeks
internal yaitu silhouette, Dunn, dan connectivity untuk menilai seberapa
baik struktur cluster terbentuk. Hasilnya membantu menentukan jumlah
cluster yang paling optimal berdasarkan kualitas pemisahan dan
kekompakan cluster.
4.4.6 Pembentukan Cluster dan Anggota
cluster2 <- cutree(hc_avg, k = 2)
anggota_cluster_df <- data.frame(
id = data$PROVINSI,
Cluster = cluster2
)Fungsi cutree() digunakan untuk memotong dendrogram
hasil hierarchical clustering sehingga terbentuk sejumlah k
cluster yang diinginkan. Selanjutnya, dibuat data frame
anggota_cluster_df yang memuat nama provinsi
(id) beserta nomor cluster masing-masing, sehingga dapat
diketahui provinsi mana termasuk ke dalam setiap cluster.
4.4.7 Visualisasi Cluster
clus_hier <- eclust(datastand, FUNcluster = "hclust", k = 2,
hc_method = "average", graph = TRUE)
fviz_dend(clus_hier, rect = TRUE, cex = 0.5)Fungsi eclust() digunakan untuk melakukan proses
clustering sekaligus menghitung berbagai indeks evaluasi cluster secara
otomatis. Setelah model terbentuk, fungsi fviz_dend()
menampilkan dendrogram yang telah diberi pewarnaan dan kotak sesuai
dengan pembagian cluster, sehingga struktur pengelompokan menjadi lebih
mudah dipahami secara visual.
4.4.8 Profil Cluster
profil_cluster <- data %>%
mutate(Cluster = cluster2) %>%
group_by(Cluster) %>%
summarise(across(2:6, mean))Fungsi mutate() digunakan untuk menambahkan kolom berisi
hasil pengelompokan (cluster) ke dalam data. Selanjutnya,
group_by() digunakan untuk mengelompokkan observasi
berdasarkan cluster tersebut. Setelah itu, fungsi
summarise(across()) menghitung nilai rata-rata untuk setiap
variabel sehingga diperoleh profil masing-masing cluster.
5 HASIL DAN PEMBAHASAN
5.1 Statistika Deskriptif
Statistika deskriptif dilakukan untuk memberikan gambaran umum terhadap data, meliputi variabel provinsi serta jumlah desa yang memiliki fasilitas pendidikan pada tingkat SD, SMP, SMU, SMK, dan Perguruan Tinggi.
PROVINSI SD SMP SMU
Length:38 Min. : 264.0 Min. : 110.0 Min. : 32.0
Class :character 1st Qu.: 566.5 1st Qu.: 268.8 1st Qu.: 136.0
Mode :character Median :1221.5 Median : 746.5 Median : 284.0
Mean :1907.1 Mean :1022.0 Mean : 477.1
3rd Qu.:2041.2 3rd Qu.:1246.8 3rd Qu.: 658.0
Max. :8442.0 Max. :4905.0 Max. :2587.0
SMK PERGURUAN TINGGI
Min. : 15.00 Min. : 8.00
1st Qu.: 69.75 1st Qu.: 23.50
Median : 152.50 Median : 46.50
Mean : 289.74 Mean : 86.55
3rd Qu.: 257.25 3rd Qu.: 98.25
Max. :2070.00 Max. :477.00
Berdasarkan data tahun 2024, terlihat adanya perbedaan penyediaan fasilitas pada setiap jenjang pendidikan antar provinsi.
SD merupakan fasilitas yang paling banyak tersedia dengan rata-rata 1.907 desa per provinsi, menunjukkan akses pendidikan dasar relatif merata meskipun masih terdapat variasi antar wilayah.
SMP memiliki rata-rata 1.022 desa, menandakan akses pendidikan menengah pertama lebih terbatas dan ketimpangan antar provinsi masih terlihat, terutama di wilayah dengan jumlah penduduk lebih sedikit.
SMA tersedia di rata-rata 477 desa, menunjukkan akses pendidikan menengah atas di desa-desa masih belum merata.
SMK hanya terdapat di rata-rata 290 desa, sehingga pendidikan vokasi belum menjangkau sebagian besar desa dan perlu upaya pemerataan.
Perguruan Tinggi memiliki rata-rata 87 desa, menandakan akses pendidikan tinggi masih sangat terbatas dan terpusat di kota-kota besar.
5.2 Analisis Cluster
5.2.1 Uji Asumsi Analisis Cluster
- Uji Sampel Representatif
Kaiser-Meyer-Olkin factor adequacy
Call: KMO(r = data[, 2:6])
Overall MSA = 0.7
MSA for each item =
SD SMP SMU SMK
0.66 0.64 0.70 0.71
PERGURUAN TINGGI
0.78
Berdasarkan hasil uji Kaiser-Meyer-Olkin (KMO) diperoleh nilai Overall MSA sebesar 0,70 menunjukkan kecukupan sampel berada pada kategori cukup dan layak untuk analisis multivariat. Nilai MSA tiap variabel juga di atas 0,60, sehingga sampel dianggap representatif untuk populasi.
- Uji Non-Multikolinearitas
SD SMP SMU SMK PERGURUAN TINGGI
SD 1.0000000 0.9666192 0.9197459 0.8697731 0.8823789
SMP 0.9666192 1.0000000 0.9832400 0.9496437 0.9493986
SMU 0.9197459 0.9832400 1.0000000 0.9531978 0.9613564
SMK 0.8697731 0.9496437 0.9531978 1.0000000 0.9755115
PERGURUAN TINGGI 0.8823789 0.9493986 0.9613564 0.9755115 1.0000000
Bedasarkan hasil korelasi menunjukkan bahwa semua variabel pendidikan memiliki korelasi sangat tinggi (0,87–0,98), menunjukkan hubungan searah antar jenjang pendidikan. Hal ini menandakan bahwa variabel memberikan informasi hampir serupa, sehingga jarak antar objek dalam cluster mungkin sangat dipengaruhi oleh kombinasi semua variabel pendidikan.
5.2.2 Standarisasi
Setelah dilakukan uji asumsi dan data dinyatakan memenuhi syarat, selanjutnya variabel distandarisasi menjadi Z-score. Hasil standarisasi ini digunakan untuk pengelompokan provinsi berdasarkan kemiripan jumlah desa yang memiliki fasilitas sekolah pada berbagai jenjang pendidikan (SD, SMP, SMU, SMK, Perguruan Tinggi) tahun 2024. Dengan demikian, cluster yang terbentuk mencerminkan pola distribusi fasilitas pendidikan antar provinsi.
5.2.3 Perhitungan Jarak Euclidean
Setelah data distandarisasi, tahap berikutnya adalah menghitung jarak antar objek berdasarkan nilai rata-rata setiap variabel dalam satu kelompok menggunakan metode Euclidean. Hasil perhitungan jarak Euclidean tersebut ditunjukkan sebagai berikut:
Matriks jarak Euclidean tersebut menunjukkan sejauh mana provinsi berbeda berdasarkan jumlah desa yang memiliki fasilitas pendidikan. Semakin kecil jarak antar provinsi, semakin mirip pola distribusi fasilitas pendidikannya.
5.2.4 Penentuan Metode Linkage Terbaik
- Koefisien Korelasi Cophenetic
Koefisien korelasi cophenetic digunakan untuk mengetahui metode terbaik yang digunakan untuk analisis cluster. Metode yang memiliki nilai paling mendekati 1 akan dipilih menjadi metode terbaik. Berikut hasil perhitungan koefisien korelasi cophenetic.
| Single | Complete | Average | Centroid | Ward |
|---|---|---|---|---|
| 0.9588323 | 0.9066525 | 0.9095013 | 0.9085601 | 0.8815911 |
Bedasarkan hasil tersebut maka dapat terlihat bahwa nilai cophenetic tertinggi diperoleh pada single linkage (0,9588), diikuti oleh average (0,9095) dan centroid (0,9086). Nilai tinggi menunjukkan dendrogram cukup merepresentasikan jarak asli. Namun, single linkage cenderung menghasilkan efek chaining sehingga cluster bisa kurang kompak, sehingga perlu melihat dendogram untuk memastikan pemisahan cluster terbaik.
- Dendogram 5 linkage
par(mfrow=c(2,3), mar=c(4,4,4,2), oma=c(0,0,4,0), cex.main=2.1, family="serif")
plot(hclust(jarak,"single"), main="Single Linkage", hang=-1, col.main="#e74c3c")
plot(hclust(jarak,"complete"), main="Complete Linkage", hang=-1, col.main="#3498db")
plot(hclust(jarak,"average"), main="Average Linkage", hang=-1, col.main="#2ecc71")
plot(hclust(jarak,"centroid"), main="Centroid Linkage", hang=-1, col.main="#f39c12")
plot(hclust(jarak,"ward.D"), main="Ward Linkage", hang=-1, col.main="#9b59b6")
# Judul besar di paling atas
mtext("Perbandingan Metode Hierarchical Clustering",
outer=TRUE, cex=3.8, font=2, col="#2c3e50")
par(mfrow=c(1,1)) # balikin defaultSetelah melihat dendrogram, average linkage dipilih sebagai metode terbaik karena menghasilkan cluster yang lebih kompak dan seimbang, meskipun nilai cophenetic sedikit lebih rendah dibanding single linkage.
5.2.5 Validasi Cluster
Setelah pemilihan metode linkage terbaik, tahap berikutnya adalah validasi cluster untuk menilai kualitas pengelompokan. Validasi ini menggunakan indeks internal seperti silhouette, Dunn, dan connectivity, yang bertujuan untuk mengevaluasi sejauh mana cluster yang terbentuk kompak dan terpisah dengan baik, sekaligus menentukan jumlah cluster yang optimal.
Clustering Methods:
hierarchical
Cluster sizes:
2 3 4 5 6 7
Validation Measures:
2 3 4 5 6 7
hierarchical Connectivity 6.1909 8.6909 9.8159 15.4234 17.4234 20.3524
Dunn 0.3123 0.5600 0.5600 0.3127 0.3127 0.3127
Silhouette 0.7761 0.7099 0.5894 0.5119 0.4888 0.3107
Optimal Scores:
Score Method Clusters
Connectivity 6.1909 hierarchical 2
Dunn 0.5600 hierarchical 3
Silhouette 0.7761 hierarchical 2
NULL
Berdasarkan hasil validasi cluster, indeks silhouette tertinggi diperoleh pada 2 cluster (0,7761), menunjukkan bahwa pembagian cluster cukup kompak dan jelas terpisah. Indeks Dunn memberikan nilai tertinggi pada 3 cluster (0,5600), namun selisihnya tidak terlalu besar. Sementara connectivity lebih rendah pada 2 cluster (6,1909), menandakan keterkaitan antar anggota cluster relatif minimal. Secara keseluruhan, kombinasi ketiga indeks menunjukkan bahwa jumlah cluster optimal adalah 2, karena menghasilkan pemisahan yang baik dan cluster yang kompak.
5.2.6 Pembentukan Cluster dan Anggota
Berdasarkan hasil validasi cluster, diperoleh jumlah cluster optimal sebanyak 2. Berikut anggota masing-masing cluster :
| Cluster | Anggota Cluster |
|---|---|
| 1 | ACEH, SUMATERA BARAT, RIAU, JAMBI, SUMATERA SELATAN, BENGKULU, LAMPUNG, KEP. BANGKA BELITUNG, KEP. RIAU, DKI JAKARTA, DI YOGYAKARTA, BANTEN, BALI, NUSA TENGGARA BARAT, NUSA TENGGARA TIMUR, KALIMANTAN BARAT, KALIMANTAN TENGAH, KALIMANTAN SELATAN, KALIMANTAN TIMUR, KALIMANTAN UTARA, SULAWESI UTARA, SULAWESI TENGAH, SULAWESI SELATAN, SULAWESI TENGGARA, GORONTALO, SULAWESI BARAT, MALUKU, MALUKU UTARA, PAPUA BARAT, PAPUA BARAT DAYA, PAPUA, PAPUA SELATAN, PAPUA TENGAH, PAPUA PEGUNUNGAN |
| 2 | SUMATERA UTARA, JAWA BARAT, JAWA TENGAH, JAWA TIMUR |
Cluster pertama terdiri dari provinsi yang memiliki rata-rata jumlah desa dengan fasilitas pendidikan lebih tinggi, menunjukkan penyediaan fasilitas pendidikan relatif merata. Cluster kedua terdiri dari provinsi dengan rata-rata jumlah desa lebih rendah, menandakan akses fasilitas pendidikan di provinsi tersebut masih terbatas.
5.2.7 Visualisasi Cluster
Dari dendrogram terlihat bahwa provinsi terbagi menjadi dua cluster utama.
Cluster 1 (merah) terdiri dari provinsi-provinsi yang saling bergabung pada height yang rendah, menandakan pola fasilitas pendidikan antar provinsi dalam kelompok ini relatif mirip.
Cluster 2 (biru) bergabung pada height yang jauh lebih tinggi, sehingga provinsi di kelompok ini memiliki karakteristik fasilitas pendidikan yang lebih berbeda dibanding cluster pertama.
Visualisasi ini mengonfirmasi hasil validasi bahwa dua cluster merupakan struktur pengelompokan yang paling jelas dan terpisah dengan baik.
5.2.8 Profil Cluster
Setelah cluster terbentuk, langkah berikutnya adalah melihat karakteristik masing-masing cluster berdasarkan nilai rata-rata tiap variabel pendidikan. Profil ini memberikan gambaran tingkat ketersediaan fasilitas pendidikan pada setiap kelompok provinsi.
| Cluster | SD | SMP | SMA | SMK | Perguruan Tinggi |
|---|---|---|---|---|---|
| 1 | 1313.353 | 694.2647 | 319.5 | 156.8824 | 53.85294 |
| 2 | 6954.000 | 3807.5000 | 1817.0 | 1419.0000 | 364.50000 |
Berdasarkan tabel di atas, terlihat bahwa :
Cluster 1 : Memiliki nilai rata-rata SD, SMP, SMA, SMK, dan Perguruan Tinggi yang lebih rendah, sehingga kelompok ini mencerminkan provinsi dengan ketersediaan fasilitas pendidikan yang masih terbatas.
Cluster 2 : Menunjukkan rata-rata seluruh fasilitas pendidikan yang lebih tinggi, menggambarkan provinsi dengan akses pendidikan yang lebih baik dan pemerataan fasilitas yang lebih kuat.
6 KESIMPULAN
Berdasarkan data jumlah desa yang memiliki fasilitas sekolah menurut provinsi dan tingkat pendidikan tahun 2024, dilakukan analisis cluster hierarki untuk mengelompokkan provinsi berdasarkan kemiripan ketersediaan fasilitas pendidikan. Metode average linkage dipilih karena menghasilkan struktur pengelompokan yang paling stabil. Hasil analisis menunjukkan terbentuk 2 cluster, yaitu Cluster 1 berisi 34 provinsi dan Cluster 2 berisi 4 provinsi. Berdasarkan profil rata-rata setiap variabel, Cluster 1 merupakan kelompok provinsi dengan jumlah desa berfasilitas pendidikan relatif lebih rendah, sedangkan Cluster 2 memiliki jumlah desa berfasilitas pendidikan jauh lebih tinggi di semua jenjang. Dengan demikian, provinsi dalam Cluster 2 menunjukkan pemerataan fasilitas pendidikan yang lebih baik dibandingkan provinsi dalam Cluster 1.
7 SARAN
Berdasarkan hasil penelitian yang telah dilakukan, terdapat beberapa saran yang dapat diberikan untuk pengembangan pemerataan fasilitas pendidikan di Indonesia. Pemerintah perlu memberi perhatian lebih pada provinsi yang masuk dalam cluster dengan ketersediaan fasilitas rendah, khususnya pada jenjang SMA, SMK, dan Perguruan Tinggi yang masih menunjukkan kesenjangan antarwilayah. Peningkatan pemerataan dapat ditempuh melalui penambahan sarana pendidikan baru, optimalisasi program afirmasi bagi daerah tertinggal, serta alokasi anggaran yang lebih proporsional. Sementara itu, bagi penelitian selanjutnya disarankan untuk menambahkan variabel pendukung seperti jumlah penduduk, kondisi sosial ekonomi, atau kualitas fasilitas, serta mempertimbangkan perbandingan antar metode clustering agar hasil yang diperoleh lebih komprehensif.
8 DAFTAR PUSTAKA
Anggraini, R. (2021). Analisis pengelompokan daerah untuk pemetaan pemerataan pembangunan. Jurnal Ilmiah Statistika, 9(1), 12–21.
Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2014). Multivariate data analysis. Pearson.
Han, J., Kamber, M., & Pei, J. (2011). Data mining: Concepts and techniques. Elsevier.
Putra, A., & Lestari, D. (2020). Penerapan analisis cluster hirarki dalam pengelompokan wilayah berdasarkan indikator pembangunan. Jurnal Statistika dan Aplikasinya, 5(2), 45–53.
Rosyidah, A., Sari, M., & Husna, N. (2019). Kelayakan data dengan uji KMO dan Bartlett pada analisis multivariat. Jurnal Statistika, 7(2), 45–53.
Ulfah, N., & Lestari, P. (2021). Penerapan uji KMO dalam analisis faktor dan analisis cluster. Journal of Applied Statistics, 9(1), 12–20.