PENDAHULUAN

Latar Belakang Kasus atau Data beserta Sumbernya.

Pendidikan merupakan salah satu pilar utama dalam peningkatan kualitas sumber daya manusia dan pembangunan jangka panjang suatu negara. Pemerataan akses pendidikan menjadi isu strategis di Indonesia karena kondisi geografis yang luas dan tingkat pembangunan yang tidak merata antarwilayah. Perbedaan dalam ketersediaan sarana pendidikan dapat berdampak langsung pada kesempatan belajar, pencapaian pendidikan, serta produktivitas masyarakat di masing-masing provinsi. Oleh karena itu, memahami pola persebaran dan karakteristik fasilitas pendidikan antarprovinsi menjadi langkah penting untuk mendukung kebijakan pembangunan yang lebih inklusif.

Dalam praktiknya, setiap provinsi memiliki jumlah dan komposisi sekolah yang berbeda pada setiap jenjang, mulai dari Sekolah Dasar hingga Perguruan Tinggi. Provinsi dengan jumlah penduduk besar cenderung memiliki jumlah sekolah yang lebih banyak, sementara provinsi dengan wilayah kepulauan atau pegunungan sering menghadapi tantangan aksesibilitas yang menghambat pemerataan fasilitas pendidikan. Ketimpangan ini dapat memunculkan kesenjangan kualitas pendidikan dan memperlebar disparitas pembangunan antarwilayah. Pemerintah membutuhkan pendekatan analitis yang mampu memetakan provinsi-provinsi tersebut ke dalam kelompok dengan karakteristik yang mirip, sehingga intervensi kebijakan dapat disesuaikan secara lebih akurat.

Data

Berdasarkan latar belakang tersebut, analisis pola persebaran fasilitas pendidikan membutuhkan data yang mampu menggambarkan kondisi nyata di setiap provinsi. Untuk tujuan ini digunakan dataset yang berisi jumlah satuan pendidikan pada lima jenjang, yaitu Sekolah Dasar (SD), Sekolah Menengah Pertama (SMP), Sekolah Menengah Umum (SMU), Sekolah Menengah Kejuruan (SMK), dan Perguruan Tinggi. Setiap baris data mewakili satu provinsi, sehingga variasi kapasitas pendidikan antar wilayah dapat diamati secara langsung.

Data ini menjadi dasar untuk mengidentifikasi kesamaan struktur pendidikan antarprovinsi melalui pendekatan clustering. Dengan melihat perbedaan dan kemiripan jumlah sekolah di setiap jenjang, analisis dapat membantu memetakan kelompok provinsi yang menghadapi kondisi atau kebutuhan fasilitas pendidikan yang serupa. Informasi ini penting bagi pemerintah ketika menetapkan prioritas pembangunan pendidikan, terutama dalam upaya pemerataan akses dan peningkatan kualitas layanan pendidikan di seluruh Indonesia.

Dataset yang digunakan disimpan dalam file Excel (.xlsx) dan dimuat ke dalam R untuk keperluan analisis. Cuplikan data disajikan untuk memberikan gambaran awal mengenai struktur dan variabel yang digunakan.

library(readxl)

## Warning: package 'readxl' was built under R version 4.4.3

library(knitr)

data_sekolah = read_excel("C:/Users/HP/OneDrive/Documents/Semester 5/Analisis Multivariat I/DATA_SEKOLAH.xlsx")
kable(head(data_sekolah, 10),
      caption = "Cuplikan 10 Baris Pertama Dataset Jumlah Sekolah per Provinsi")

Cuplikan 10 Baris Pertama Dataset Jumlah Sekolah per Provinsi
PROVINSI	SD	SMP	SMU	SMK	Perguruan Tinggi
ACEH	3382	1421	735	205	119
SUMATERA UTARA	5003	2319	1147	712	202
SUMATERA BARAT	1256	808	415	180	102
RIAU	1811	1210	631	259	80
JAMBI	1484	810	393	169	42
SUMATERA SELATAN	2996	1410	720	252	99
BENGKULU	1187	488	194	93	27
LAMPUNG	2537	1437	695	405	96
KEP. BANGKA BELITUNG	391	217	85	49	16
KEP. RIAU	408	249	132	62	33

str(data_sekolah)

## tibble [38 × 6] (S3: tbl_df/tbl/data.frame)
##  $ PROVINSI        : chr [1:38] "ACEH" "SUMATERA UTARA" "SUMATERA BARAT" "RIAU" ...
##  $ SD              : num [1:38] 3382 5003 1256 1811 1484 ...
##  $ SMP             : num [1:38] 1421 2319 808 1210 810 ...
##  $ SMU             : num [1:38] 735 1147 415 631 393 ...
##  $ SMK             : num [1:38] 205 712 180 259 169 252 93 405 49 62 ...
##  $ Perguruan Tinggi: num [1:38] 119 202 102 80 42 99 27 96 16 33 ...

Latar Belakang Metode

Dalam upaya memahami variasi kondisi pendidikan antar provinsi, diperlukan suatu metode yang mampu mengelompokkan wilayah berdasarkan kemiripan karakteristiknya. Analisis cluster menjadi salah satu pendekatan statistik yang tepat untuk tujuan tersebut karena dapat mengelompokkan provinsi berdasarkan pola kesamaan pada beberapa variabel secara simultan. Melalui proses pengelompokan ini, provinsi-provinsi yang memiliki struktur jumlah sekolah yang serupa pada berbagai jenjang pendidikan dapat dikelompokkan ke dalam satu cluster yang sama.

Metode clustering hierarki dipilih karena mampu memberikan gambaran struktur pengelompokan secara lebih intuitif. Pendekatan ini menyajikan hubungan antar provinsi dalam bentuk dendrogram, sehingga pola kemiripan dan perbedaan antarwilayah dapat diamati secara visual. Selain itu, hierarchical clustering tidak memerlukan penentuan jumlah cluster sejak awal, sehingga fleksibel ketika pola data belum diketahui dengan jelas. Hal ini cocok dengan karakter data pendidikan antar provinsi yang variatif dan berskala berbeda.

Dengan menerapkan metode ini, analisis dapat membantu mengungkap kelompok provinsi yang menghadapi kebutuhan kapasitas pendidikan yang mirip, sehingga dapat menjadi dasar perumusan kebijakan pemerataan yang lebih tepat sasaran. Pendekatan ini juga relevan untuk melihat disparitas pendidikan secara struktural dan mendukung pengambilan keputusan berbasis data di tingkat regional maupun nasional.

Tinjauan Pustaka Metode

Analisis cluster merupakan sekumpulan teknik statistik yang digunakan untuk mengelompokkan objek berdasarkan tingkat kemiripannya. Salah satu pendekatan utama dalam analisis cluster adalah hierarchical clustering, yaitu metode yang membangun struktur bertingkat untuk menunjukkan bagaimana objek digabungkan menjadi kelompok-kelompok yang semakin besar (Everitt et al., 2011). Metode ini banyak digunakan ketika peneliti ingin memahami pola kemiripan secara alami tanpa harus menentukan jumlah kelompok sejak awal. Hal tersebut menjadikannya cocok untuk konteks penelitian ini, di mana pola distribusi sekolah antarprovinsi belum diketahui secara pasti.

Hierarchical Clustering

Hierarchical clustering terbagi menjadi dua pendekatan, yaitu agglomerative (penggabungan) dan divisive (pemecahan). Penelitian ini menggunakan pendekatan agglomerative, karena lebih umum digunakan dan mampu memberikan struktur penggabungan dari objek individual hingga cluster final (Murtagh & Contreras, 2012). Pada setiap tahap, dua cluster yang paling mirip digabungkan hingga hanya tersisa satu cluster besar.

Hasil dari hierarchical clustering divisualisasikan melalui dendrogram, yakni diagram pohon yang memperlihatkan urutan dan jarak penggabungan cluster. Dendrogram memungkinkan peneliti mengamati pola kemiripan antarprovinsi dalam konteks jumlah fasilitas pendidikan, sekaligus menentukan jumlah cluster optimal melalui pemotongan pada tinggi tertentu.

Ukuran Jarak

Ukuran jarak adalah komponen utama dalam clustering, karena menentukan persepsi “kemiripan” antar objek. Dalam data ini, setiap provinsi direpresentasikan oleh lima variabel numerik (jumlah SD, SMP, SMA, SMK, dan Perguruan Tinggi). Untuk data kuantitatif seperti ini, ukuran jarak yang paling sesuai adalah Jarak Euclidean. Jarak Euclidean merupakan ukuran jarak yang mengukur jarak garis lurus antar titik dalam ruang multidimensi.

Secara umum, jarak euclidean dihitung dengan menggunakan rumus sebagai berikut. \[ d_E(i,j)=\sqrt{\sum^p_{i=1}{\left(x_{ik}-x_{jk}\right)^2}} \]

Dengan:
- \(p\): Jumlah variabel
- \(x_{ik}\): Nilai variabel ke-k untuk provinsi ke-i.

Keunggulan Jarak Euclidean terletak pada interpretasinya yang intuitif dan konsistensinya terhadap metode minimisasi varians yang digunakan pada Ward linkage. Namun ukuran ini sensitif terhadap perbedaan skala. Karena jumlah sekolah pada setiap jenjang memiliki rentang nilai berbeda, standarisasi variabel wajib dilakukan sebelum menghitung jarak untuk memastikan semua jenjang memiliki kontribusi yang seimbang (Jain, 2010).

Metode Penggabungan Cluster

Linkage method menentukan bagaimana jarak antar cluster dihitung ketika dua cluster potensial akan digabungkan. Dalam penelitian ini digunakan Ward’s minimum variance method, yang bertujuan meminimalkan peningkatan total within-cluster sum of squares (WSS) pada setiap tahap penggabungan (Ward, 1963). Ward bekerja dengan memilih dua cluster yang, jika digabungkan, menghasilkan kenaikan varians paling kecil.

Ward’s linkage banyak dipilih dalam analisis sosial dan ekonomi regional karena memiliki kemampuan menghasilkan cluster yang kompak dan relatif seimbang ukurannya (Kaufman & Rousseeuw, 1990). Kelebihan Ward antara lain: 1. Membentuk cluster yang homogen secara internal. 2. Mengurangi efek outlier dibanding metode linkage lain. 3. Sangat kompatibel dengan Jarak Euclidean, karena keduanya konsisten dalam kerangka pengurangan variansi. Dengan demikian, kombinasi Jarak Euclidean dan Ward linkage sangat sesuai untuk mengelompokkan provinsi berdasarkan karakter fasilitas pendidikan, yang bertujuan menemukan kelompok wilayah dengan pola yang mirip.

Secara umum, Ward’s linkage dihitung dengan menggunakan rumus sebagai berikut. \[ \Delta(C_a, C_b) = \frac{n_a n_b}{n_a + n_b} \left\| \bar{x}_a - \bar{x}_b \right\|^2 \]

Dengan:
- \(C_a, C_b\): Dua cluster yang dibandingkan
- \(n_a\): Ukuran cluster ke-a
- \(\bar{x}_a\): centroid cluster ke-a.

Metode Ward cocok untuk analisis persebaran fasilitas pendidikan karena menghasilkan cluster dengan variasi internal yang kecil sehingga dapat mencerminkan karakteristik pendidikan tiap provinsi secara lebih konsisten (Everitt et al., 2011).

Standarisasi Data

Karena variabel jumlah sekolah sangat berbeda skalanya antarjenjang (misalnya SD umumnya jauh lebih banyak dibanding Perguruan Tinggi), standarisasi digunakan untuk membuat seluruh variabel berada pada rentang yang sebanding. Standarisasi yang digunakan adalah standarisasi z-score.

Secara umum, standarisasi z-score dihitung dengan menggunakan rumus sebagai berikut. \[ z=\frac{x-\mu}{\sigma} \]

Standarisasi mencegah variabel berskala besar mendominasi jarak Euclidean, sehingga struktur cluster yang terbentuk lebih mencerminkan pola keseluruhan (Everitt et al., 2011).

Validasi Cluster

Validasi cluster bertujuan menilai apakah struktur cluster yang terbentuk benar-benar mencerminkan pola dalam data, bukan sekadar hasil algoritma. Dalam hierarchical clustering, validasi menjadi penting karena metode ini tidak memiliki fungsi objektif eksplisit untuk dioptimalkan seperti K-Means. Pada penelitian ini, digunakan validasi internal karena validasi internal adalah validasi yang menilai kualitas cluster berdasarkan data itu sendiri.

Berikut merupakan metode validasi yang umum digunakan.

Koefisien Silhouette
Koefisien Silhouette mengukur seberapa tepat observasi dimasukkan ke dalam suatu cluster serta memperkirakan rata-rata antar cluster. Koefisien Silhouette menjadi indikator penting untuk memastikan homogenitas internal agar cluster provinsi yang dibentuk homogen.

Secara umum, koefisien silhouette dihitung dengan menggunakan rumus sebagai berikut. \[ s(i)=\frac{b(i)-a(i)}{max(a(i),b(i))} \]

Dengan:
- \(a(i)\): Rata-rata kemiripan antara objek ke-i dengan objek lain di dalam clusternya
- \(b(i)\): Nilai minimum dari rata-rata kemiripan objek ke-i dengan objek lain di luar cluster.

Kemudian,dihitung rata-rata seluruh s(i) untuk menghasilkan koefisien global silhouette dengan rumus sebagai berikut. \[ S=\frac{1}{n}\sum^n_{i=1}s(i) \]

Hasil perhitungan koefisien global silhouette dapat diinterpretasikan sebagai berikut.
- \(S>0.7\): Struktur cluster sangat baik
- \(0.5 \leq S \leq 0.7\): Struktur cluster baik
- \(0.25 \leq S<0.5\): Struktur cluster lemah
- \(S<0.25\): Struktur cluster buruk.

Indeks Davies-Bouldin
Indeks Davies–Bouldin adalah ukuran keunikan cluster yang mempertimbangkan baik kekompakan cluster (jarak antara titik data dengan pusat cluster) maupun pemisahan antar cluster. Indeks ini merupakan fungsi dari rasio pemisahan within-cluster terhadap pemisahan antar cluster. Semakin rendah nilai indeks Davies Bouldin, semakin baik kualitas clustering.

Secara umum, indeks davies-bouldin dihitung dengan menggunakan rumus sebagai berikut. \[ DB_k=\frac{1}{k}\sum_{i=1}^{k}\max_{j \neq i}\left(\frac{S_i + S_j}{d(\bar{x}_i,\bar{x}_j)}\right) \]

Dengan:
- \(k\): Banyaknya cluster
- \(S_i\): Rata-rata jarak antara centroid dengan sampel lainnya dalam cluster
- \(d(\bar{x}_i,\bar{x}_j)\): jarak antara centroid cluster ke-i dan ke-j

Tujuan Ringkas

Penelitian ini bertujuan untuk: 1. Mengelompokkan provinsi di Indonesia berdasarkan karakteristik jumlah fasilitas pendidikan pada berbagai jenjang, sehingga diperoleh struktur kedekatan antarwilayah yang merefleksikan kondisi pendidikan masing-masing provinsi. 2. Mengidentifikasi kelompok provinsi yang memiliki profil pendidikan serupa sebagai dasar analisis pemerataan pembangunan sektor pendidikan. 3. Menyajikan struktur pengelompokan dalam bentuk dendrogram sebagai representasi hubungan kedekatan antarwilayah. 4. Mengevaluasi kualitas hasil pengelompokan menggunakan ukuran validasi yang relevan, sehingga interpretasi cluster dapat dilakukan secara lebih akurat.

SOURCE CODE

library(readxl) # Membaca file Excel
library(dplyr) # Manipulasi data
library(cluster) # Silhouette dan analisis cluster
library(factoextra) # Visualisasi cluster
library(NbClust)  # Menentukan jumlah klaster (cluster) yang optimal atau relevan dalam sebuah set data. 
library(clusterCrit) # Menghitung Davies–Bouldin Index
library(reshape2) # Memanipulasi dan mentransformasi struktur data (data frame) antara format "lebar" (wide) dan "panjang" (long). 

# Membaca data .xlsx (pastikan berada di working directory)
data_sekolah = read_excel("C:/Users/HP/OneDrive/Documents/Semester 5/Analisis Multivariat I/DATA_SEKOLAH.xlsx")

# Mengambil hanya variabel numerik untuk clustering (tanpa nama provinsi)
data_clust = data_sekolah[, -1]

# Standardisasi data agar skala antarvariabel setara
data_scaled = scale(data_clust)

# Menghitung jarak Euclidean antarprovinsi
dist_euc = dist(data_scaled, method="euclidean")

# Membentuk hierarchical clustering dengan Ward's linkage (Ward.D2)
hc_ward = hclust(dist_euc, method="ward.D2")

# k = 2
# Menampilkan Dendogram
plot(hc_ward, labels=data_sekolah$PROVINSI, main="Dendrogram Clustering Sekolah per Provinsi (Ward)", xlab = "Provinsi", ylab = "Jarak")
rect.hclust(hc_ward, k=2, border="red")

clusters2 = cutree(hc_ward, k=2)

# Global Silhouette
# Mengukur kualitas cluster: semakin mendekati 1 semakin baik
sil = silhouette(clusters2, dist_euc)
global_silhouette2 = mean(sil[, 3])

# Davies–Bouldin Index
# Semakin kecil nilainya semakin baik pemisahan cluster
db_index2 = intCriteria(as.matrix(data_scaled), clusters2, "davies_bouldin")$davies_bouldin

# k = 3
# Menampilkan Dendogram
plot(hc_ward, labels=data_sekolah$PROVINSI, main="Dendrogram Clustering Sekolah per Provinsi (Ward)", xlab = "Provinsi", ylab = "Jarak")
rect.hclust(hc_ward, k=3, border="red")

clusters3 = cutree(hc_ward, k=3)

# Global Silhouette
# Mengukur kualitas cluster: semakin mendekati 1 semakin baik
sil = silhouette(clusters3, dist_euc)
global_silhouette3 = mean(sil[, 3])

# Davies–Bouldin Index
# Semakin kecil nilainya semakin baik pemisahan cluster
db_index3 = intCriteria(as.matrix(data_scaled), clusters3, "davies_bouldin")$davies_bouldin

# k = 4
# Menampilkan Dendogram
plot(hc_ward, labels=data_sekolah$PROVINSI, main="Dendrogram Clustering Sekolah per Provinsi (Ward)", xlab = "Provinsi", ylab = "Jarak")
rect.hclust(hc_ward, k=4, border="red")

clusters4 = cutree(hc_ward, k=4)

# Global Silhouette
# Mengukur kualitas cluster: semakin mendekati 1 semakin baik
sil = silhouette(clusters4, dist_euc)
global_silhouette4 = mean(sil[, 3])

# Davies–Bouldin Index
# Semakin kecil nilainya semakin baik pemisahan cluster
db_index4 = intCriteria(as.matrix(data_scaled), clusters4, "davies_bouldin")$davies_bouldin


#Menunjukkan hasil perhitungan indeks validasi cluster
print('Hasil Indeks Validasi Cluster (k = 2):')

## [1] "Hasil Indeks Validasi Cluster (k = 2):"

global_silhouette2

## [1] 0.7761021

db_index2

## [1] 0.4626907

print('Hasil Indeks Validasi Cluster (k = 3):')

## [1] "Hasil Indeks Validasi Cluster (k = 3):"

global_silhouette3

## [1] 0.4897506

db_index3

## [1] 0.6445564

print('Hasil Indeks Validasi Cluster (k = 4):')

## [1] "Hasil Indeks Validasi Cluster (k = 4):"

global_silhouette4

## [1] 0.4940547

db_index4

## [1] 0.6372697

HASIL DAN PEMBAHASAN

Hasil Analisis

Analisis dilakukan menggunakan metode agglomerative hierarchical clustering dengan ukuran jarak Euclidean dan metode pengelompokan Ward. Seluruh variabel pendidikan telah dinormalisasi menggunakan standardisasi z-score untuk memastikan tiap variabel berkontribusi secara proporsional dalam perhitungan jarak antarprovinsi.

Dendrogram yang dihasilkan menunjukkan struktur penggabungan provinsi berdasarkan kemiripan karakteristik pendidikan. Tiga nilai k diuji (k = 2, 3, 4), dan masing-masing dievaluasi menggunakan dua indeks validasi, yaitu indeks global silhouette dan indeks Davies-Bouldin. Hasil ringkasnya adalah sebagai berikut.

k=2
Menunjukkan nilai global silhouette paling tinggi, yaitu sebesar 0.776 dan indeks Davies-Bouldin paling rendah, yaitu sebesar 0.462. Meskipun secara statistik menunjukkan bahwa pengelompokkan menjadi 2 cluster merupakan pengelompokkan terbaik, tetapi hasil pengelompokan kurang bermakna secara substantif karena hanya memisahkan provinsi berpopulasi ekstrem dari gabungan seluruh provinsi lainnya.
k=3
Menunjukkan nilai global silhouette sebesar 0.49 dan indeks Davies-Bouldin sebesar 0.645. Meskipun secara statistik, pengelompokkan menjadi 3 cluster merupakan pengelompokkan terburuk. Namun, pengelompokkan menjadi 3 cluster memberikan keseimbangan terbaik antara validitas statistik dan interpretasi substantif.
k=4
Menunjukkan nilai global silhouette sebesar 0.494 dan indeks Davies-Bouldin sebesar 0.637. Secara statistik, pengelompokkan menjadi 4 cluster sedikit lebih baik dari pengelompokkan 3 cluster. Namun, pengelompokkan menjadi 4 cluster tidak memberikan perubahan kebijakan yang signifikan dibandingkan pengelompokkan 3 cluster. Hal ini karena pemecahan cluster hanya berfokus kepada cluster besar. Sehingga pengelompokkan menjadi 3 cluster masih lebih efektif.

Sehingga berdasarkan hasil evaluasi yang dilakukan, dipilihlah k = 3 dimana cluster tidak terlalu timpang, dan masing-masing kelompok mencerminkan kondisi riil pemerataan pendidikan di Indonesia. Hasil pengelompokkan menjadi 3 cluster adalah sebagai berikut.

Cluster 1
Cluster ini berisi provinsi berpenduduk besar dengan jumlah sekolah dan peserta didik yang jauh lebih tinggi dibanding provinsi lain. Tingginya beban layanan pendidikan membuat karakteristiknya ekstrem dan berbeda dengan kelompok lain. Cluster ini terdiri dari provinsi Jawa Barat, Jawa Timur, Sumatera Utara, dan Jawa Tengah. Ciri umum yang ditunjukkan pada cluster satu adalah sebagai berikut.

Jumlah sekolah dan siswa tertinggi secara nasional
Kebutuhan fasilitas pendidikan sangat besar
Tantangan pemerataan internal tinggi
Pola urbanisasi kuat
Menjadi pusat aktivitas pendidikan nasional Sehingga, cluster ini membutuhkan kebijakan yang fokus pada manajemen beban layanan pendidikan, peningkatan kapasitas sekolah, serta pemerataan kualitas.

Cluster 2
Provinsi dalam cluster ini memiliki karakteristik pendidikan tingkat menengah dengan variasi internal yang cukup besar. Di dalamnya terdapat provinsi dengan capaian relatif baik (Banten, Riau) dan provinsi dengan hambatan geografis (NTT, NTB). Kedua kelompok ini masuk ke cluster yang sama karena indikator agregatnya berada pada kisaran menengah. Cluster ini terdiri dari provinsi Sulawesi Selatan, Aceh, Sumatera Selatan, Lampung, NTT, Banten, Sumatera Barat, Riau, dan NTB. Ciri umum yang ditunjukkan pada cluster dua adalah sebagai berikut.

Kapasitas pendidikan sedang hingga menengah-tinggi
Variasi internal tergolong besar (baik dari segi sebaran sekolah maupun kualitas)
Tantangan geografis signifikan pada sebagian provinsi
Kebutuhan kebijakan bersifat regional-spesifik karena karakteristiknya beragam Sehingga, cluster ini membutuhkan kebijakan pembangunan pendidikan yang lebih bersifat tailor-made, disesuaikan dengan situasi lokal tiap provinsi.

Cluster 3
Cluster terbesar ini menggabungkan 27 provinsi yang memiliki pola pendidikan relatif mirip. Tidak ada indikator ekstrem seperti cluster 1 dan tidak ada ketimpangan internal sebesar cluster 2. Ciri umum yang ditunjukkan pada cluster tiga adalah sebagai berikut.

Skala pendidikan menengah
Komposisi sekolah cenderung proporsional dengan jumlah penduduk
Variasi internal lebih rendah
Stabil secara agregat Sehingga, cluster ini cocok untuk implementasi kebijakan pendidikan berskala nasional yang bersifat prioritas tanpa banyak modifikasi, meskipun evaluasi lokal tetap dibutuhkan.

Dari perspektif kebijakan, pengelompokan ini dapat membantu pemerintah menentukan segmentasi prioritas dalam penyediaan fasilitas pendidikan serta penyusunan program berbasis wilayah. Perbedaan utama antar provinsi dipengaruhi oleh jumlah penduduk, ketersediaan fasilitas, dan tantangan geografis. Sehingga kebijakan yang harus diambil tetap harus mempertimbangkan perbedaan utama tersebut. Hal ini karena kebijakan yang diambil untuk provinsi DKI Jakarta tetap harus dibedakan dengan kebijakan yang diambil untuk provinsi Papua Selatan, meskipun kedua provinsi ini termasuk kedalam cluster yang sama.

PENUTUP

Kesimpulan

Penelitian ini berhasil mengelompokkan 38 provinsi di Indonesia berdasarkan indikator pendidikan menggunakan clustering hierarki dengan ukuran jarak Euclidean dan metode Ward’s linkage. Dari beberapa alternatif jumlah cluster yang diuji, solusi dengan k = 3 merupakan pilihan terbaik karena memberikan struktur kelompok yang lebih representatif secara substantif dan tetap memiliki validitas statistik yang memadai.

Cluster 1 menggambarkan provinsi dengan beban pendidikan sangat besar. Cluster 2 berisi provinsi dengan karakteristik menengah serta tantangan geografis yang cukup signifikan. Cluster 3 mencerminkan provinsi dengan pola pendidikan stabil dan homogen. Struktur ini dapat menjadi dasar penyusunan kebijakan pemerataan fasilitas pendidikan antarprovinsi.

Saran

Akademik

Analisis dapat diperluas dengan menambahkan variabel pendidikan lain seperti rasio guru–siswa, APK, APS, tingkat kelulusan, atau sarana-prasarana.
Perbandingan metode clustering, seperti K-Means atau Model-Based Clustering, dapat memperkuat kesimpulan.
Penggunaan data panel beberapa tahun akan memberikan wawasan mengenai perubahan cluster dari waktu ke waktu.

Kebijakan

Pemerintah perlu mengembangkan layanan pendidikan pada provinsi dalam Cluster 1 yang memiliki skala pendidikan terbesar dan kebutuhan kapasitas tinggi.
Cluster 2 memerlukan kebijakan berbeda antarprovinsi, terutama pada wilayah dengan hambatan geografis.
Cluster 3 dapat menjadi sasaran kebijakan nasional yang lebih seragam, namun tetap perlu evaluasi wilayah tertentu jika ada dinamika baru.
Pengelompokan ini dapat dimanfaatkan untuk pengalokasian anggaran pendidikan berbasis kebutuhan (need-based budgeting).

Daftar Pustaka

Everitt, B. S., Landau, S., Leese, M., & Stahl, D. (2011). Cluster analysis (5th ed.). John Wiley & Sons. https://doi.org/10.1002/9780470977811

Jain, A. K. (2010). Data clustering: 50 years beyond K-means. Pattern Recognition Letters, 31(8), 651–666. https://doi.org/10.1016/j.patrec.2009.09.011

Kaufman, L., & Rousseeuw, P. J. (1990). Finding groups in data: An introduction to cluster analysis. John Wiley & Sons. https://doi.org/10.1002/9780470316801

Murtagh, F., & Contreras, P. (2012). Algorithms for hierarchical clustering: An overview. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 2(1), 86–97. https://doi.org/10.1002/widm.53

Rousseeuw, P. J. (1987). Silhouettes: A graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics, 20, 53–65. https://doi.org/10.1016/0377-0427(87)90125-7

Sokal, R. R., & Rohlf, F. J. (1962). The comparison of dendrograms by objective methods. Taxon, 11(2), 33–40. https://doi.org/10.2307/1217208

Ward, J. H., Jr. (1963). Hierarchical grouping to optimize an objective function. Journal of the American Statistical Association, 58(301), 236–244. https://doi.org/10.1080/01621459.1963.10500845

Pengelompokan Provinsi di Indonesia Berdasarkan Jumlah Sekolah per Jenjang dengan Pendekatan Cluster Hirarki

Althaf Anugrah Indra

2025-11-25