1 PENDAHULUAN
2 TINJAUAN PUSTAKA
- 2.1 Statistika Deskriptif
- 2.2 Analisis Cluster
3 DATA
4 SOURCE CODE
5 HASIL DAN PEMBAHASAN
- 5.1 Statistika Deskriptif
- 5.2 Analisis Cluster
6 KESIMPULAN
7 SARAN
8 DAFTAR PUSTAKA

1 PENDAHULUAN

1.1 Latar Belakang

Pemerataan akses pendidikan merupakan salah satu prioritas pembangunan nasional karena menjadi fondasi peningkatan kualitas sumber daya manusia. Meskipun pemerintah telah melakukan berbagai upaya pemerataan, kondisi fasilitas pendidikan masih menunjukkan ketimpangan antarwilayah. Ketimpangan ini tampak pada perbedaan jumlah desa yang memiliki fasilitas sekolah di tingkat pendidikan tertentu, terutama antarprovinsi, sehingga menimbulkan kesenjangan akses layanan pendidikan bagi masyarakat. Data “Jumlah Desa yang Memiliki Fasilitas Sekolah Menurut Provinsi dan Tingkat Pendidikan Tahun 2024” menggambarkan variasi tersebut dan menunjukkan bahwa tidak semua provinsi berada pada kondisi pemerataan yang sama.

Kondisi ketidaksamaan penyediaan fasilitas pendidikan ini menjadi isu krusial karena ketersediaan sarana sekolah di tingkat desa merupakan indikator dasar pembangunan wilayah. Provinsi dengan desa yang minim fasilitas sekolah berpotensi menghadapi hambatan dalam pemerataan pendidikan, peningkatan IPM, serta pengembangan ekonomi jangka panjang. Oleh sebab itu, diperlukan analisis yang tidak hanya melihat nilai rata-rata atau persebaran data, tetapi mampu mengungkap pola kemiripan dan perbedaan antarprovinsi secara menyeluruh.

Untuk menjawab kebutuhan tersebut, analisis cluster hirarki merupakan metode yang relevan karena dapat mengelompokkan provinsi berdasarkan kemiripan karakteristik fasilitas pendidikan yang dimiliki. Metode ini menampilkan struktur pengelompokan melalui dendrogram sehingga pola hubungan antarprovinsi dapat diinterpretasikan dengan lebih jelas (Putra & Lestari, 2020). Selain itu, metode pengelompokan telah banyak dimanfaatkan dalam penelitian pemerataan pembangunan karena mampu membantu perumusan kebijakan yang lebih tepat sasaran (Anggraini, 2021).

Berdasarkan uraian tersebut, penelitian ini dilakukan untuk memperoleh gambaran mengenai pengelompokan provinsi di Indonesia berdasarkan ketersediaan fasilitas sekolah di tingkat desa. Hasil analisis diharapkan dapat menjadi informasi komprehensif yang mendukung identifikasi wilayah prioritas serta perencanaan kebijakan pemerataan pendidikan.

1.2 Rumusan Masalah

Berdasarkan latar belakang tersebut, maka rumusan masalah dalam penelitian ini adalah:

Bagaimana pola pengelompokan provinsi di Indonesia berdasarkan jumlah desa yang memiliki fasilitas sekolah menurut tingkat pendidikan pada tahun 2024?
Apa karakteristik masing-masing kelompok provinsi yang terbentuk dari hasil analisis cluster hirarki terkait pemerataan fasilitas pendidikan di tingkat desa?

1.3 Tujuan

Bedasarkan dengan rumusan masalah di atas, tujuan penelitian ini adalah:

Mengidentifikasi dan membentuk kelompok provinsi di Indonesia berdasarkan kemiripan jumlah desa yang memiliki fasilitas sekolah menurut tingkat pendidikan menggunakan analisis cluster hirarki.
Menganalisis karakteristik setiap kelompok provinsi yang diperoleh guna memberikan gambaran komprehensif mengenai tingkat pemerataan fasilitas pendidikan antar wilayah.

2 TINJAUAN PUSTAKA

2.1 Statistika Deskriptif

Statistika deskriptif merupakan metode dalam ilmu statistik yang digunakan untuk menggambarkan, merangkum, dan menyajikan data sehingga karakteristik utama dari suatu kumpulan data dapat dipahami dengan jelas tanpa melakukan penarikan kesimpulan terhadap populasi yang lebih luas. Melalui proses pengolahan dan penyajian tersebut, statistika deskriptif membantu menyusun informasi secara sistematis agar lebih mudah diinterpretasikan (Martias, 2021; Subhaktiyasa et al., 2025). Dalam konteks penelitian, metode ini berfungsi sebagai langkah awal untuk memberikan gambaran umum mengenai pola atau kecenderungan data sebelum dilakukan analisis lebih lanjut.

2.2 Analisis Cluster

Analisis cluster merupakan salah satu teknik dalam analisis multivariat yang digunakan untuk mengelompokkan objek berdasarkan tingkat kemiripan atributnya. Melalui metode ini, objek-objek yang memiliki karakteristik serupa akan dikelompokkan ke dalam satu klaster, sedangkan objek yang berbeda ditempatkan pada klaster lainnya (Hair et al., 2014). Pendekatan ini memungkinkan peneliti menyederhanakan data yang kompleks, mengidentifikasi pola tertentu, serta memahami struktur alami yang terdapat dalam data tanpa melibatkan variabel terikat (unsupervised).

Proses pengelompokan dilakukan dengan mengukur kedekatan atau jarak antar objek melalui ukuran jarak atau asosiasi tertentu. Objek yang jaraknya relatif dekat dianggap memiliki kemiripan yang tinggi dan dikelompokkan bersama, sedangkan objek dengan jarak yang lebih jauh dimasukkan ke kelompok yang berbeda (Han et al., 2011). Dengan demikian, analisis cluster membantu menghasilkan representasi data yang lebih ringkas dan terstruktur sehingga memudahkan proses interpretasi serta pengambilan keputusan.

Tahap-tahap dalam analisis cluster yaitu sebagai berikut :

Melakukan proses standarisasi variabel untuk menyetarakan skala antar variabel.
Menentukan ukuran kemiripan, yaitu dengan menghitung jarak antar dua objek.
Memilih metode pengelompokan, baik hierarki maupun non-hierarki.
Menentukan jumlah cluster berdasarkan kriteria statistik dan pertimbangan substantif.
Interpretasi hasil cluster, yaitu penjelasan karakteristik dari masing-masing kelompok yang terbentuk.

Sebagai teknik yang bersifat eksploratif, analisis cluster tidak menghasilkan satu struktur pengelompokan yang mutlak, namun memberikan konfigurasi kelompok yang paling menggambarkan pola kemiripan dalam data (Putra & Yasin, 2019).

2.2.1 Uji Asumsi Analisis Cluster

Uji Sampel Representatif

Sampel dikatakan representatif apabila data yang digunakan mampu menggambarkan struktur populasi yang sebenarnya. Untuk memastikan kelayakan sampel dalam analisis multivariat seperti analisis cluster, salah satu pengujian yang umum digunakan adalah Kaiser Meyer Olkin (KMO).

Menurut penelitian terbaru, nilai KMO ≥ 0,50 menunjukkan bahwa hubungan antar variabel cukup kuat sehingga data dinilai layak digunakan sebagai dasar pembentukan cluster (Ulfah & Lestari, 2021; Rosyidah et al., 2019). Nilai KMO yang mendekati 1 mengindikasikan bahwa pola korelasi antar variabel memadai dan sampel telah representatif untuk dianalisis lebih lanjut.

Uji Non Multikolinearitas

Uji multikolinearitas bertujuan untuk memastikan bahwa antar variabel tidak memiliki hubungan yang terlalu tinggi. Pengujian dilakukan menggunakan nilai Variance Inflation Factor (VIF) dengan rumus:

\[ \text{VIF} = \frac{1}{1 - R^2} \]

Suatu variabel dinyatakan tidak mengalami multikolinearitas apabila nilai VIF < 10, sedangkan nilai VIF ≥ 10 menunjukkan adanya multikolinearitas (Hair et al., 2019).

2.2.2 Standarisasi Variabel

Standarisasi dilakukan agar setiap variabel berada pada skala yang sama sehingga tidak ada variabel yang mendominasi proses pengelompokan. Nilai standar dihitung dengan rumus:

\[ Z_i = \frac{X_i - \bar{X}}{\sigma} \]

Keterangan:

\(X_i\) : nilai ke-\(i\)

\(\bar{X}\) : rata-rata variabel

\(\sigma\) : simpangan baku variabel

2.2.3 Jarak Analisis Cluster

Dalam analisis cluster, ukuran jarak digunakan untuk menilai tingkat kemiripan antar objek. Semakin kecil jarak antar dua objek, semakin besar kemungkinan keduanya berada pada cluster yang sama. Beberapa ukuran jarak yang paling sering digunakan adalah sebagai berikut.

Jarak Euclidean

Mengukur jarak lurus antar dua objek dalam ruang multivariat.

\[ d(x, y) = \sqrt{\sum_{i=1}^n (x_i - y_i)^2} \]

Jarak Manhattan

Menghitung total selisih absolut antar variabel.

\[ d(x, y) = \sum_{i=1}^n |x_i - y_i| \]

Jarak Mahalanobis

Mempertimbangkan varians–kovarians antar variabel, cocok untuk data yang saling berkorelasi.

\[ d(x, y) = \sqrt{(x - y)^T S^{-1} (x - y)} \]

2.2.4 Analisis Cluster Hierarki

Analisis cluster hirarki merupakan teknik pengelompokan di mana jumlah cluster belum ditentukan sebelumnya. Proses pembentukan cluster dilakukan secara bertahap melalui dua pendekatan, yaitu :

Metode Agglomerative

Pada metode agglomerative, proses dimulai dengan menganggap setiap objek sebagai satu cluster. Selanjutnya, objek yang memiliki tingkat kemiripan tertinggi digabungkan menjadi cluster baru. Penggabungan terus dilakukan hingga seluruh objek berada dalam satu cluster besar. Metode ini terdiri dari beberapa teknik sebagai berikut.

Single Linkage

Metode single linkage menentukan jarak antar cluster berdasarkan pasangan objek dengan jarak paling kecil (nearest neighbor).

\[ d_{(ij)k} = \min(d_{ik}, d_{jk}) \]

Complete Linkage

Complete linkage menggunakan jarak terjauh antara dua objek pada cluster yang berbeda (farthest neighbor).

\[ d_{(ij)k} = \max(d_{ik}, d_{jk}) \]

Average Linkage

Average linkage menghitung jarak antar cluster berdasarkan rata-rata jarak seluruh pasangan objek dari dua cluster.

\[ d_{(ij)k} = \frac{1}{n_i n_j} \sum_{a=1}^{n_i} \sum_{b=1}^{n_j} \sqrt{\sum_{p=1}^{k} (x_{ap} - y_{bp})^2} \]

Ward’s Method

Ward’s method menggabungkan cluster yang menimbulkan peningkatan jumlah kuadrat error (SSE) paling kecil. Pendekatan ini menghasilkan cluster yang variansnya minimal.

\[ ESS = \sum_{j=1}^{k} \left( \sum_{i=1}^{n_j} x_{ij}^2 - \frac{1}{n_j} \left( \sum_{i=1}^{n_j} x_{ij} \right)^2 \right) \]

Centroid Linkage

Centroid linkage menentukan jarak antar cluster menggunakan jarak antara centroid (rata-rata) dua cluster.

\[ d_{ij} = d\left( \frac{1}{n_i}\sum_{k=1}^{n_i} x_{ik},\; \frac{1}{n_j}\sum_{l=1}^{n_j} x_{jl} \right) \]

Metode Divisive

Metode divisive bekerja secara berlawanan dengan agglomerative. Proses dimulai dari satu cluster besar yang berisi seluruh objek, kemudian dipisah menjadi dua cluster. Pemisahan terus dilakukan hingga setiap objek menjadi cluster tunggal.

2.2.5 Indeks Validitas

Indeks validasi digunakan untuk menilai kualitas hasil pengelompokan. Pengujian ini membantu menentukan apakah jumlah cluster yang terbentuk sudah optimal dan apakah struktur cluster cukup baik. Beberapa indeks validasi yang sering digunakan antara lain :

Silhouette Index

Indeks ini mengukur seberapa mirip objek dengan cluster tempat ia berada dibandingkan dengan cluster lain. Nilai berkisar antara −1 hingga 1. Nilai mendekati 1 menunjukkan struktur cluster yang baik.

\[ S(i) = \frac{b(i) - a(i)}{\max(a(i),\; b(i))} \]

Keterangan:

\(a(i)\) : rata-rata jarak objek i ke objek dalam cluster yang sama

\(b(i)\) : jarak rata-rata objek i ke cluster terdekat lainnya

Davies–Bouldin Index

DBI mengukur kualitas cluster berdasarkan kekompakan cluster dan pemisahan antar cluster. Nilai yang lebih kecil menunjukkan hasil clustering lebih baik.

\[ DBI = \frac{1}{k} \sum_{i=1}^{k} \max_{j \neq i} \left( \frac{S_i + S_j}{M_{ij}} \right) \]

Keterangan:

\(S_i\) : rata-rata jarak intra‐cluster pada cluster ke-i

\(M_{ij}\) : jarak antar centroid cluster i dan j

Indeks Dunn

Indeks Dunn mengevaluasi kualitas cluster berdasarkan rasio antara jarak minimum antar cluster dan diameter cluster terbesar. Nilai yang lebih besar menunjukkan struktur cluster yang lebih baik.

\[ D = \frac{\min_{i \neq j} d(C_i, C_j)}{\max_k \; \text{diam}(C_k)} \]

Keterangan :

\(d(C_i,C_j)\) : jarak minimum antar cluster

\(diam(C_k)\) : diameter (jarak maksimum antar anggota) cluster k

Indeks C

Indeks C membandingkan jumlah jarak intra-cluster sebenarnya dengan jumlah jarak minimum dan maksimum yang mungkin terjadi. Nilai mendekati 0 menunjukkan cluster yang baik.

\[ C = \frac{S - S_{\min}}{S_{\max} - S_{\min}} \]

Keterangan :

\(S\) : total jarak intra-cluster aktual

\(S_{min}\) : jarak minimum yang mungkin

\(S_{max}\) : jarak maksimum yang mungkin

2.2.6 Koefisien Korelasi Cophenetic

Koefisien korelasi cophenetic digunakan untuk menilai sejauh mana struktur dendrogram mampu merepresentasikan jarak asli antar objek. Nilai mendekati 1 menunjukkan bahwa hasil pengelompokan hierarki memiliki tingkat kesesuaian yang baik dengan data awal.

Rumus:

\[ c = \frac{\sum_{i<j} (d_{ij} - \bar{d})(t_{ij} - \bar{t})} {\sqrt{\sum_{i<j} (d_{ij} - \bar{d})^2 \; \sum_{i<j}(t_{ij} - \bar{t})^2}} \]

Keterangan:

\(d_{ij}\) : jarak asli antar objek ke-i dan ke-j
\(t_{ij}\) : jarak cophenetic (jarak pada dendrogram)
\(\bar{d}\) : rata-rata jarak asli
\(\bar{t}\) : rata-rata jarak cophenetic
\(c\) : nilai koefisien korelasi cophenetic

2.2.7 Dendogram

Dendrogram adalah diagram pohon yang digunakan untuk menggambarkan proses penggabungan cluster pada analisis cluster hierarki. Grafik ini menunjukkan objek mana yang digabung terlebih dahulu dan pada tingkat jarak berapa penggabungan terjadi. Semakin rendah tinggi penggabungan, semakin mirip kedua objek atau cluster tersebut.

3 DATA

Data yang digunakan merupakan data sekunder yang bersumber dari publikasi Jumlah Desa yang Memiliki Fasilitas Sekolah Menurut Provinsi dan Tingkat Pendidikan Tahun 2024 yang diambil melalui website resmi Badan Pusat Statistik (BPS).

Sumber: Badan Pusat Statistik Indonesia. (18 Juli 2025). Jumlah Desa yang Memiliki Fasilitas Sekolah Menurut Provinsi dan Tingkat Pendidikan, 2024.

4 SOURCE CODE

4.1 Library

Library berikut digunakan dalam proses pengolahan data, visualisasi, dan analisis cluster pada penelitian ini.

library("knitr")
library("psych")
library("GPArotation")
library("ggplot2")
library("cluster")
library("factoextra")
library("tidyverse")
library("car")
library("readxl")
library("MVN")
library("dendextend")
library("DT")
library("rmarkdown")
library("prettydoc")
library("clValid")
library("fastcluster")
library("dplyr")
library("kableExtra")

Penjelasan Fungsi Library

library("knitr") digunakan untuk menghasilkan laporan dinamis serta mengatur tampilan kode pada R Markdown.
library("psych") digunakan untuk melakukan analisis statistik dasar seperti reliabilitas dan analisis faktor.
library("GPArotation") digunakan untuk melakukan rotasi faktor agar struktur faktor lebih mudah diinterpretasi.
library("ggplot2") digunakan untuk membuat visualisasi data yang informatif dan berkualitas tinggi.
library("cluster") digunakan untuk melakukan berbagai metode analisis cluster.
library("factoextra") digunakan untuk mengekstrak dan memvisualisasikan hasil analisis clustering dan multivariat.
library("tidyverse") digunakan untuk manipulasi dan pembersihan data secara efisien (dplyr, tidyr, readr, dll.).
library("car") digunakan untuk melakukan diagnostik model dan pengujian asumsi statistik.
library("readxl") digunakan untuk membaca dan mengimpor data dari file Excel.
library("MVN") digunakan untuk melakukan uji normalitas multivariat serta visualisasinya.
library("dendextend") digunakan untuk memodifikasi dan memperindah tampilan dendrogram.
library("DT") digunakan untuk membuat tabel interaktif yang dapat di-scroll, diurutkan, dan dicari.
library("rmarkdown") digunakan untuk menghasilkan laporan dalam format HTML, Word, atau PDF.
library("prettydoc") digunakan untuk mempercantik tampilan laporan HTML pada R Markdown.
library("clValid") digunakan untuk mengevaluasi metode clustering dan menentukan jumlah cluster optimal.
library("fastcluster") digunakan untuk melakukan clustering dengan algoritma yang lebih cepat dan efisien.
library("dplyr") digunakan untuk mengelola data secara efisien (select,mutate,group_by,summarize)
library("kableExtra") digunakan untuk mempercantik dan memformat tabel agar tampil lebih rapi di R Markdown.

4.2 Impor Data

data <- read_excel("C:/Users/Aniisa Ainur Rahma/Downloads/DATA_SEKOLAH.xlsx")

Fungsi read_excel() digunakan untuk mengambil data dari file eksternal, kemudian hasil pembacaan tersebut disimpan dalam objek bernama data sehingga dapat diolah lebih lanjut pada tahap analisis.

4.3 Statistika Deskriptif

statdes <- summary(data)

Fungsi summary() digunakan untuk menampilkan ringkasan statistik dari setiap variabel dalam data. Fungsi ini memberikan informasi seperti nilai minimum, maksimum, median, kuartil, serta rata-rata, sehingga membantu memahami karakteristik dasar data sebelum dilakukan analisis lebih lanjut.

4.4 Analisis Cluster

4.4.1 Uji Asumsi Analisis Cluster

Uji Sampel Representatif

ujisampel <- KMO(data[,2:6])

Fungsi KMO() digunakan untuk menghitung nilai Kaiser-Meyer-Olkin sebagai uji kelayakan sampel sebelum dilakukan analisis multivariat. Argumen data[,2:6] menunjukkan bahwa perhitungan hanya diterapkan pada variabel yang berada pada kolom ke-2 hingga kolom ke-6 dari dataset. Hasil pengujian kemudian disimpan dalam objek ujisampel.

Uji Non-Multikolinearitas

multikol <- cor(data[,2:6], method = 'pearson')

Fungsi cor() digunakan untuk menghitung matriks korelasi sebagai langkah awal mendeteksi multikolinearitas antar variabel. Ekspresi data[,2:6] menunjukkan bahwa perhitungan korelasi dilakukan pada variabel yang berada di kolom ke-2 hingga ke-6 dari dataset. Parameter method = "pearson" digunakan untuk menghitung korelasi Pearson. Hasilnya disimpan dalam objek multikol sebagai dasar evaluasi multikolinearitas.

4.4.2 Standarisasi

datastand <- scale(data[,2:6])

Fungsi scale() digunakan untuk melakukan standarisasi pada variabel numerik. Argumen data[,2:6] menunjukkan bahwa proses standarisasi diterapkan hanya pada kolom ke-2 hingga ke-6 dalam dataset. Hasil standarisasi disimpan dalam objek datastand untuk digunakan pada analisis selanjutnya.

4.4.3 Perhitungan Jarak Euclidean

jarak <- dist(datastand, method = "euclidean")

Fungsi dist() digunakan untuk menghitung jarak antar objek dengan metode jarak euclidean.

4.4.4 Penentuan Model Linkage Terbaik

Perhitungan Korelasi Cophenetic

hc_single   <- hclust(jarak, "single")
cor.sing    <- cor(jarak, cophenetic(hc_single))

hc_complete <- hclust(jarak, "complete")
cor.comp    <- cor(jarak, cophenetic(hc_complete))

hc_avg      <- hclust(jarak, "average")
cor.ave     <- cor(jarak, cophenetic(hc_avg))

hc_centroid <- hclust(jarak, "centroid")
cor.centr   <- cor(jarak, cophenetic(hc_centroid))

hc_ward     <- hclust(jarak, "ward.D")
cor.ward    <- cor(jarak, cophenetic(hc_ward))

KorCop <- data.frame(
  Single   = cor.sing,
  Complete = cor.comp,
  Average  = cor.ave,
  Centroid = cor.centr,
  Ward     = cor.ward
)

Fungsi cophenetic() digunakan untuk menghitung jarak antar‐objek sebagaimana direpresentasikan oleh dendrogram hasil pengelompokan. Sementara itu, fungsi cor() digunakan untuk mengukur tingkat kesesuaian antara jarak asli (berdasarkan matriks jarak Euclidean) dengan jarak hasil dendrogram.

Pembuatan Dendogram untuk 5 Metode Linkage

par(mfrow = c(2, 3))

plot(hclust(jarak, method = "single"),   main = "Single Linkage", cex = 0.6)
plot(hclust(jarak, method = "complete"), main = "Complete Linkage", cex = 0.6)
plot(hclust(jarak, method = "average"),  main = "Average Linkage", cex = 0.6)
plot(hclust(jarak, method = "centroid"), main = "Centroid Linkage", cex = 0.6)
plot(hclust(jarak, method = "ward.D"),   main = "Ward Linkage",     cex = 0.6)

par(mfrow = c(1, 1))

Fungsi hclust() digunakan untuk menjalankan cluster hirarki dengan 5 linkage yaitu single, complete, average, centroid, dan ward. Sementara itu, fungsi par(mfrow) digunakan untuk membagi area grafik menjadi matriks tampilan berukuran 2 × 3 sehingga seluruh dendrogram dapat ditampilkan secara bersamaan dalam satu kanvas plot.

4.4.5 Validasi Cluster

valid_avg <- clValid(
datastand,
nClust     = 2:7,
clMethods  = "hierarchical",
validation = "internal",
metric     = "euclidean",
method     = "average"
)
summary(valid_avg)

Fungsi clValid() digunakan untuk mengevaluasi kualitas hasil pengelompokan pada jumlah cluster 2 hingga 7. Dengan opsi validation = "internal", fungsi ini menghitung tiga indeks internal yaitu silhouette, Dunn, dan connectivity untuk menilai seberapa baik struktur cluster terbentuk. Hasilnya membantu menentukan jumlah cluster yang paling optimal berdasarkan kualitas pemisahan dan kekompakan cluster.

4.4.6 Pembentukan Cluster dan Anggota

cluster2 <- cutree(hc_avg, k = 2)
anggota_cluster_df <- data.frame(
id      = data$PROVINSI,
Cluster = cluster2
)

Fungsi cutree() digunakan untuk memotong dendrogram hasil hierarchical clustering sehingga terbentuk sejumlah k cluster yang diinginkan. Selanjutnya, dibuat data frame anggota_cluster_df yang memuat nama provinsi (id) beserta nomor cluster masing-masing, sehingga dapat diketahui provinsi mana termasuk ke dalam setiap cluster.

4.4.7 Visualisasi Cluster

clus_hier <- eclust(datastand, FUNcluster = "hclust", k = 2,
hc_method = "average", graph = TRUE)
fviz_dend(clus_hier, rect = TRUE, cex = 0.5)

Fungsi eclust() digunakan untuk melakukan proses clustering sekaligus menghitung berbagai indeks evaluasi cluster secara otomatis. Setelah model terbentuk, fungsi fviz_dend() menampilkan dendrogram yang telah diberi pewarnaan dan kotak sesuai dengan pembagian cluster, sehingga struktur pengelompokan menjadi lebih mudah dipahami secara visual.

4.4.8 Profil Cluster

profil_cluster <- data %>%
mutate(Cluster = cluster2) %>%
group_by(Cluster) %>%
summarise(across(2:6, mean))

Fungsi mutate() digunakan untuk menambahkan kolom berisi hasil pengelompokan (cluster) ke dalam data. Selanjutnya, group_by() digunakan untuk mengelompokkan observasi berdasarkan cluster tersebut. Setelah itu, fungsi summarise(across()) menghitung nilai rata-rata untuk setiap variabel sehingga diperoleh profil masing-masing cluster.

5 HASIL DAN PEMBAHASAN

5.1 Statistika Deskriptif

Statistika deskriptif dilakukan untuk memberikan gambaran umum terhadap data, meliputi variabel provinsi serta jumlah desa yang memiliki fasilitas pendidikan pada tingkat SD, SMP, SMU, SMK, dan Perguruan Tinggi.

   PROVINSI               SD              SMP              SMU        
 Length:38          Min.   : 264.0   Min.   : 110.0   Min.   :  32.0  
 Class :character   1st Qu.: 566.5   1st Qu.: 268.8   1st Qu.: 136.0  
 Mode  :character   Median :1221.5   Median : 746.5   Median : 284.0  
                    Mean   :1907.1   Mean   :1022.0   Mean   : 477.1  
                    3rd Qu.:2041.2   3rd Qu.:1246.8   3rd Qu.: 658.0  
                    Max.   :8442.0   Max.   :4905.0   Max.   :2587.0  
      SMK          PERGURUAN TINGGI
 Min.   :  15.00   Min.   :  8.00  
 1st Qu.:  69.75   1st Qu.: 23.50  
 Median : 152.50   Median : 46.50  
 Mean   : 289.74   Mean   : 86.55  
 3rd Qu.: 257.25   3rd Qu.: 98.25  
 Max.   :2070.00   Max.   :477.00

Berdasarkan data tahun 2024, terlihat adanya perbedaan penyediaan fasilitas pada setiap jenjang pendidikan antar provinsi.

SD merupakan fasilitas yang paling banyak tersedia dengan rata-rata 1.907 desa per provinsi, menunjukkan akses pendidikan dasar relatif merata meskipun masih terdapat variasi antar wilayah.
SMP memiliki rata-rata 1.022 desa, menandakan akses pendidikan menengah pertama lebih terbatas dan ketimpangan antar provinsi masih terlihat, terutama di wilayah dengan jumlah penduduk lebih sedikit.
SMA tersedia di rata-rata 477 desa, menunjukkan akses pendidikan menengah atas di desa-desa masih belum merata.
SMK hanya terdapat di rata-rata 290 desa, sehingga pendidikan vokasi belum menjangkau sebagian besar desa dan perlu upaya pemerataan.
Perguruan Tinggi memiliki rata-rata 87 desa, menandakan akses pendidikan tinggi masih sangat terbatas dan terpusat di kota-kota besar.

5.2 Analisis Cluster

5.2.1 Uji Asumsi Analisis Cluster

Uji Sampel Representatif

Kaiser-Meyer-Olkin factor adequacy
Call: KMO(r = data[, 2:6])
Overall MSA =  0.7
MSA for each item = 
              SD              SMP              SMU              SMK 
            0.66             0.64             0.70             0.71 
PERGURUAN TINGGI 
            0.78

Berdasarkan hasil uji Kaiser-Meyer-Olkin (KMO) diperoleh nilai Overall MSA sebesar 0,70 menunjukkan kecukupan sampel berada pada kategori cukup dan layak untuk analisis multivariat. Nilai MSA tiap variabel juga di atas 0,60, sehingga sampel dianggap representatif untuk populasi.

Uji Non-Multikolinearitas

                        SD       SMP       SMU       SMK PERGURUAN TINGGI
SD               1.0000000 0.9666192 0.9197459 0.8697731        0.8823789
SMP              0.9666192 1.0000000 0.9832400 0.9496437        0.9493986
SMU              0.9197459 0.9832400 1.0000000 0.9531978        0.9613564
SMK              0.8697731 0.9496437 0.9531978 1.0000000        0.9755115
PERGURUAN TINGGI 0.8823789 0.9493986 0.9613564 0.9755115        1.0000000

Bedasarkan hasil korelasi menunjukkan bahwa semua variabel pendidikan memiliki korelasi sangat tinggi (0,87–0,98), menunjukkan hubungan searah antar jenjang pendidikan. Hal ini menandakan bahwa variabel memberikan informasi hampir serupa, sehingga jarak antar objek dalam cluster mungkin sangat dipengaruhi oleh kombinasi semua variabel pendidikan.

5.2.2 Standarisasi

Setelah dilakukan uji asumsi dan data dinyatakan memenuhi syarat, selanjutnya variabel distandarisasi menjadi Z-score. Hasil standarisasi ini digunakan untuk pengelompokan provinsi berdasarkan kemiripan jumlah desa yang memiliki fasilitas sekolah pada berbagai jenjang pendidikan (SD, SMP, SMU, SMK, Perguruan Tinggi) tahun 2024. Dengan demikian, cluster yang terbentuk mencerminkan pola distribusi fasilitas pendidikan antar provinsi.

5.2.3 Perhitungan Jarak Euclidean

Setelah data distandarisasi, tahap berikutnya adalah menghitung jarak antar objek berdasarkan nilai rata-rata setiap variabel dalam satu kelompok menggunakan metode Euclidean. Hasil perhitungan jarak Euclidean tersebut ditunjukkan sebagai berikut:

Matriks jarak Euclidean tersebut menunjukkan sejauh mana provinsi berbeda berdasarkan jumlah desa yang memiliki fasilitas pendidikan. Semakin kecil jarak antar provinsi, semakin mirip pola distribusi fasilitas pendidikannya.

5.2.4 Penentuan Metode Linkage Terbaik

Koefisien Korelasi Cophenetic

Koefisien korelasi cophenetic digunakan untuk mengetahui metode terbaik yang digunakan untuk analisis cluster. Metode yang memiliki nilai paling mendekati 1 akan dipilih menjadi metode terbaik. Berikut hasil perhitungan koefisien korelasi cophenetic.

Tabel Korelasi Cophenetic
Single	Complete	Average	Centroid	Ward
0.9588323	0.9066525	0.9095013	0.9085601	0.8815911

Bedasarkan hasil tersebut maka dapat terlihat bahwa nilai cophenetic tertinggi diperoleh pada single linkage (0,9588), diikuti oleh average (0,9095) dan centroid (0,9086). Nilai tinggi menunjukkan dendrogram cukup merepresentasikan jarak asli. Namun, single linkage cenderung menghasilkan efek chaining sehingga cluster bisa kurang kompak, sehingga perlu melihat dendogram untuk memastikan pemisahan cluster terbaik.

Dendogram 5 linkage

par(mfrow=c(2,3), mar=c(4,4,4,2), oma=c(0,0,4,0), cex.main=2.1, family="serif")

plot(hclust(jarak,"single"),   main="Single Linkage",   hang=-1, col.main="#e74c3c")
plot(hclust(jarak,"complete"), main="Complete Linkage", hang=-1, col.main="#3498db")
plot(hclust(jarak,"average"),  main="Average Linkage",  hang=-1, col.main="#2ecc71")
plot(hclust(jarak,"centroid"), main="Centroid Linkage", hang=-1, col.main="#f39c12")
plot(hclust(jarak,"ward.D"),   main="Ward Linkage",     hang=-1, col.main="#9b59b6")

# Judul besar di paling atas
mtext("Perbandingan Metode Hierarchical Clustering", 
      outer=TRUE, cex=3.8, font=2, col="#2c3e50")

par(mfrow=c(1,1))  # balikin default

Setelah melihat dendrogram, average linkage dipilih sebagai metode terbaik karena menghasilkan cluster yang lebih kompak dan seimbang, meskipun nilai cophenetic sedikit lebih rendah dibanding single linkage.

5.2.5 Validasi Cluster

Setelah pemilihan metode linkage terbaik, tahap berikutnya adalah validasi cluster untuk menilai kualitas pengelompokan. Validasi ini menggunakan indeks internal seperti silhouette, Dunn, dan connectivity, yang bertujuan untuk mengevaluasi sejauh mana cluster yang terbentuk kompak dan terpisah dengan baik, sekaligus menentukan jumlah cluster yang optimal.


Clustering Methods:
 hierarchical 

Cluster sizes:
 2 3 4 5 6 7 

Validation Measures:
                                 2       3       4       5       6       7
                                                                          
hierarchical Connectivity   6.1909  8.6909  9.8159 15.4234 17.4234 20.3524
             Dunn           0.3123  0.5600  0.5600  0.3127  0.3127  0.3127
             Silhouette     0.7761  0.7099  0.5894  0.5119  0.4888  0.3107

Optimal Scores:

             Score  Method       Clusters
Connectivity 6.1909 hierarchical 2       
Dunn         0.5600 hierarchical 3       
Silhouette   0.7761 hierarchical 2       
NULL

Berdasarkan hasil validasi cluster, indeks silhouette tertinggi diperoleh pada 2 cluster (0,7761), menunjukkan bahwa pembagian cluster cukup kompak dan jelas terpisah. Indeks Dunn memberikan nilai tertinggi pada 3 cluster (0,5600), namun selisihnya tidak terlalu besar. Sementara connectivity lebih rendah pada 2 cluster (6,1909), menandakan keterkaitan antar anggota cluster relatif minimal. Secara keseluruhan, kombinasi ketiga indeks menunjukkan bahwa jumlah cluster optimal adalah 2, karena menghasilkan pemisahan yang baik dan cluster yang kompak.

5.2.6 Pembentukan Cluster dan Anggota

Berdasarkan hasil validasi cluster, diperoleh jumlah cluster optimal sebanyak 2. Berikut anggota masing-masing cluster :

Tabel Anggota Cluster Provinsi
Cluster	Anggota Cluster
1	ACEH, SUMATERA BARAT, RIAU, JAMBI, SUMATERA SELATAN, BENGKULU, LAMPUNG, KEP. BANGKA BELITUNG, KEP. RIAU, DKI JAKARTA, DI YOGYAKARTA, BANTEN, BALI, NUSA TENGGARA BARAT, NUSA TENGGARA TIMUR, KALIMANTAN BARAT, KALIMANTAN TENGAH, KALIMANTAN SELATAN, KALIMANTAN TIMUR, KALIMANTAN UTARA, SULAWESI UTARA, SULAWESI TENGAH, SULAWESI SELATAN, SULAWESI TENGGARA, GORONTALO, SULAWESI BARAT, MALUKU, MALUKU UTARA, PAPUA BARAT, PAPUA BARAT DAYA, PAPUA, PAPUA SELATAN, PAPUA TENGAH, PAPUA PEGUNUNGAN
2	SUMATERA UTARA, JAWA BARAT, JAWA TENGAH, JAWA TIMUR

Cluster pertama terdiri dari provinsi yang memiliki rata-rata jumlah desa dengan fasilitas pendidikan lebih tinggi, menunjukkan penyediaan fasilitas pendidikan relatif merata. Cluster kedua terdiri dari provinsi dengan rata-rata jumlah desa lebih rendah, menandakan akses fasilitas pendidikan di provinsi tersebut masih terbatas.

5.2.7 Visualisasi Cluster

Dari dendrogram terlihat bahwa provinsi terbagi menjadi dua cluster utama.

Cluster 1 (merah) terdiri dari provinsi-provinsi yang saling bergabung pada height yang rendah, menandakan pola fasilitas pendidikan antar provinsi dalam kelompok ini relatif mirip.
Cluster 2 (biru) bergabung pada height yang jauh lebih tinggi, sehingga provinsi di kelompok ini memiliki karakteristik fasilitas pendidikan yang lebih berbeda dibanding cluster pertama.

Visualisasi ini mengonfirmasi hasil validasi bahwa dua cluster merupakan struktur pengelompokan yang paling jelas dan terpisah dengan baik.

5.2.8 Profil Cluster

Setelah cluster terbentuk, langkah berikutnya adalah melihat karakteristik masing-masing cluster berdasarkan nilai rata-rata tiap variabel pendidikan. Profil ini memberikan gambaran tingkat ketersediaan fasilitas pendidikan pada setiap kelompok provinsi.

Tabel Profil Cluster Provinsi berdasarkan Fasilitas Pendidikan
Cluster	SD	SMP	SMA	SMK	Perguruan Tinggi
1	1313.353	694.2647	319.5	156.8824	53.85294
2	6954.000	3807.5000	1817.0	1419.0000	364.50000

Berdasarkan tabel di atas, terlihat bahwa :

Cluster 1 : Memiliki nilai rata-rata SD, SMP, SMA, SMK, dan Perguruan Tinggi yang lebih rendah, sehingga kelompok ini mencerminkan provinsi dengan ketersediaan fasilitas pendidikan yang masih terbatas.
Cluster 2 : Menunjukkan rata-rata seluruh fasilitas pendidikan yang lebih tinggi, menggambarkan provinsi dengan akses pendidikan yang lebih baik dan pemerataan fasilitas yang lebih kuat.

6 KESIMPULAN

Berdasarkan data jumlah desa yang memiliki fasilitas sekolah menurut provinsi dan tingkat pendidikan tahun 2024, dilakukan analisis cluster hierarki untuk mengelompokkan provinsi berdasarkan kemiripan ketersediaan fasilitas pendidikan. Metode average linkage dipilih karena menghasilkan struktur pengelompokan yang paling stabil. Hasil analisis menunjukkan terbentuk 2 cluster, yaitu Cluster 1 berisi 34 provinsi dan Cluster 2 berisi 4 provinsi. Berdasarkan profil rata-rata setiap variabel, Cluster 1 merupakan kelompok provinsi dengan jumlah desa berfasilitas pendidikan relatif lebih rendah, sedangkan Cluster 2 memiliki jumlah desa berfasilitas pendidikan jauh lebih tinggi di semua jenjang. Dengan demikian, provinsi dalam Cluster 2 menunjukkan pemerataan fasilitas pendidikan yang lebih baik dibandingkan provinsi dalam Cluster 1.

7 SARAN

Berdasarkan hasil penelitian yang telah dilakukan, terdapat beberapa saran yang dapat diberikan untuk pengembangan pemerataan fasilitas pendidikan di Indonesia. Pemerintah perlu memberi perhatian lebih pada provinsi yang masuk dalam cluster dengan ketersediaan fasilitas rendah, khususnya pada jenjang SMA, SMK, dan Perguruan Tinggi yang masih menunjukkan kesenjangan antarwilayah. Peningkatan pemerataan dapat ditempuh melalui penambahan sarana pendidikan baru, optimalisasi program afirmasi bagi daerah tertinggal, serta alokasi anggaran yang lebih proporsional. Sementara itu, bagi penelitian selanjutnya disarankan untuk menambahkan variabel pendukung seperti jumlah penduduk, kondisi sosial ekonomi, atau kualitas fasilitas, serta mempertimbangkan perbandingan antar metode clustering agar hasil yang diperoleh lebih komprehensif.

8 DAFTAR PUSTAKA

Anggraini, R. (2021). Analisis pengelompokan daerah untuk pemetaan pemerataan pembangunan. Jurnal Ilmiah Statistika, 9(1), 12–21.

Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2014). Multivariate data analysis. Pearson.

Han, J., Kamber, M., & Pei, J. (2011). Data mining: Concepts and techniques. Elsevier.

Putra, A., & Lestari, D. (2020). Penerapan analisis cluster hirarki dalam pengelompokan wilayah berdasarkan indikator pembangunan. Jurnal Statistika dan Aplikasinya, 5(2), 45–53.

Rosyidah, A., Sari, M., & Husna, N. (2019). Kelayakan data dengan uji KMO dan Bartlett pada analisis multivariat. Jurnal Statistika, 7(2), 45–53.

Ulfah, N., & Lestari, P. (2021). Penerapan uji KMO dalam analisis faktor dan analisis cluster. Journal of Applied Statistics, 9(1), 12–20.