1. Pendahuluan

1.1. Latar Belakang

Pendidikan merupakan salah satu pilar penting dalam pembangunan nasional karena berperan langsung dalam meningkatkan kualitas sumber daya manusia. Pemerataan dan ketersediaan fasilitas pendidikan, seperti jumlah sekolah pada setiap jenjang, menjadi indikator strategis untuk menilai sejauh mana suatu wilayah mampu menyediakan layanan pendidikan yang memadai bagi masyarakatnya. Indonesia sebagai negara kepulauan dengan karakteristik geografis dan demografis yang sangat beragam memiliki tantangan besar dalam mewujudkan pemerataan tersebut. Perbedaan kondisi antarprovinsi sering kali menyebabkan ketimpangan jumlah dan distribusi sekolah.

Untuk memahami pola persebaran fasilitas pendidikan secara lebih komprehensif, diperlukan analisis kuantitatif yang mampu mengelompokkan provinsi berdasarkan kesamaan karakteristik jumlah sekolah di berbagai jenjang pendidikan, mulai dari SD, SMP, SMA, SMK, hingga perguruan tinggi. Salah satu metode analisis yang umum digunakan untuk tujuan pengelompokan adalah analisis cluster, khususnya metode k-means yang termasuk dalam kategori cluster non hirarki.

Metode k-means memungkinkan pengelompokan provinsi ke dalam beberapa klaster yang memiliki karakteristik serupa sehingga dapat memberikan gambaran mengenai wilayah dengan tingkat ketersediaan fasilitas pendidikan yang tinggi, sedang, ataupun rendah. Hasil analisis ini dapat digunakan sebagai dasar dalam pengambilan keputusan, perencanaan pembangunan pendidikan, maupun alokasi sumber daya secara lebih tepat sasaran.

1.2. Rumusan Masalah

Berdasarkan latar belakang yang telah dibuat, diperoleh rumusan masalah sebagai berikut.

  1. Berapa jumlah klaster yang paling sesuai untuk mengklasifikasikan provinsi di Indonesia berdasarkan persebaran fasilitas pendidikan?

  2. Apa karakteristik masing-masing klaster yang terbentuk dan bagaimana perbedaan kondisi pendidikan antar klaster tersebut?

1.3. Tujuan Penelitian

Berdasarkan rumusan masalah yang telah dibuat, tujuan penelitian ini adalah sebagai berikut.

  1. Untuk menentukan jumlah klaster yang paling sesuai dalam menggambarkan pola persebaran fasilitas pendidikan antarprovinsi.

  2. Untuk menganalisis karakteristik masing-masing klaster yang terbentuk serta memahami perbedaan kondisi pendidikan antar klaster.

2. Tinjauan Pustaka

2.1. Analisis Cluster

Analisis cluster merupakan metode statistik yang diterapkan untuk mengelompokkan sejumlah data atau objek ke dalam cluster berdasarkan karakteristik yang dimiliki oleh data atau objek tersebut (Awaliyah dkk., 2024). Objek-objek yang berada dalam satu kelompok diharapkan memiliki tingkat kesamaan yang lebih tinggi dibandingkan dengan objek-objek dari kelompok lainnya (Hair dkk., 2010). Analisis cluster yang baik memiliki ciri-ciri sebagai berikut.

  1. Memiliki kesamaan (homogenitas) yang tinggi antar objek dalam satu cluster ( within cluster).
  2. Memiliki perbedaan (heterogenitas) yang tinggi antar cluster yang satu dengan cluster yang lainnya ( between cluster).

Secara umum, analisis cluster dibagi menjadi dua metode, yaitu metode hirarki dan metode non-hirarki. Metode hirarki merupakan metode pengelompokan ketika banyak cluster belum diketahui. Metode hirarki melakukan pengelompokan dengan terlebih dahulu menggabungkan dua atau lebih objek yang memiliki karakteristik serupa. Proses ini kemudian berlanjut dengan menggabungkan objek lain yang paling mirip secara bertahap hingga terbentuk struktur berjenjang yang jelas antar objek, yang biasanya divisualisasikan dalam bentuk dendrogram. Metode non-hirarki merupakan metode pengelompokan dengan menentukan banyak cluster terlebih dahulu berdasarkan preferensi atau kebutuhan peneliti. Setelah menentukan banyak cluster, maka selanjutnya akan ditentukan centroid dari setiap cluster, kemudian jarak setiap objek dengan centroid dihitung dan centroid yang baru kembali dihitung. Proses ini berlanjut sampai tidak ada pemindahan objek ke cluster lain.

2.2. Algoritma K-Means

Salah satu metode analisis cluster non-hirarki yang sering digunakan adalah analisis K-Means clustering. K-Means adalah algoritma yang mengelompokkan data ke dalam beberapa cluster berdasarkan kesamaan karakteristik tertentu (Putri & Rahmah, 2024). Prinsip utama metode K-Means yaitu menyusun centroid dari sekumpulan data berdimensi. Metode ini membutuhkan parameter input sebanyak 𝑘 dan membagi sekumpulan 𝑛 objek ke dalam cluster sebanyak 𝑘 sehingga terbentuk cluster yang baik dengan homogenitas internal yang tinggi dan heterogenitas eksternal yang tinggi (Johnson & Wichern, 2007). Tahapan algoritma K-Means adalah sebagai berikut.

  1. Menentukan besar 𝑘 sebagai banyak cluster yang ingin dibentuk.

  2. Mengelompokkan objek ke dalam cluster secara acak.

  3. Menentukan centroid awal untuk setiap cluster berdasarkan objek yang telah dikelompokkan.

  4. Menghitung jarak objek dengan centroid menggunakan rumus jarak Euclidean.

  5. Mengelompokkan setiap objek ke dalam cluster berdasarkan jarak minimum. \[Cluster(X_i)=min\ d(x_i, C_k)\]

  6. Melakukan proses iterasi dengan menentukan centroid baru menggunakan persamaan berikut.

\[C_i = \frac{\sum_{i=1}^n X_i}{n}\]

  1. Melakukan iterasi dengan mengulangi langkah 4 hingga 6 sampai tidak ada lagi objek yang berpindah cluster.

  2. Melakukan validasi hasil cluster menggunakan Indeks Shilouette.

2.3. Jarak Euclidean

Jarak Euclidean merupakan salah satu ukuran jarak yang paling umum digunakan dalam analisis cluster di mana jarak ini menggunakan prinsip phytagoras. Jarak Euclidean merupakan salah satu metode perhitungan yang digunakan untuk menentukan jarak antara dua titik dalam ruang Euclidean, baik dalam dua dimensi, tiga dimensi, maupun dimensi yang lebih tinggi (Pribadi dkk., 2022).

Rumus yang digunakan untuk menghitung jarak Euclidean ditunjukkan pada persamaan berikut. \[ d(x,y)=\sqrt{\sum_{i=1}^n(x_i-y_i)^2} \] dengan:
\(d(x,y)\) = Jarak Euclidean antar objek \(x\) dan \(y\)
\(x_i\) = Nilai variabel ke-\(i\) objek \(x\)
\(y_i\) = Nilai variabel ke-\(i\) objek \(y\)

2.4. Indeks Shilouette

Indeks Silhoutte dapat dihitung dengan rumus sebagai berikut: \[ S(i)=\frac{b(i)-a(i)}{max\{a(i),b(i)\}} \] dengan:
\(a(i)\) = rata-rata kemiripan antara objek ke-\(i\) dengan objek lain di dalam clusternya
\(b(i)\) = nilai minimum dari rata-rata kemiripan antara objek ke-\(i\) dengan objek lain di luar cluster
Indeks ini mengukur derajat kepercayaan dalam proses clustering pada pengamatan tertentu dengan cluster yang dikatakan terbentuk baik bila nilai indeks mendekati 1 dan sebaliknya jika nilai indeks mendekati -1.

3. Source Code

3.1. Memuat Packages

library(tidyverse)
library(readxl)
library(factoextra)
library( cluster)
library(knitr)

Mengaktifkan packages yang akan digunakan untuk melakukan analisis.

3.2. Menyiapkan Data

data = read_excel('C:/Kuliah/SEMESTER 5/Analisis Multivariat 1/DATA_SEKOLAH.xlsx')
head(data)
dataclust = (data[,-1])

summ = data.frame(
  Variabel = c('SD', 'SMP', 'SMU', 'SMK', 'PT'),
  Min = c(min(data$SD), min(data$SMP), min(data$SMU), min(data$SMK), min(data$`Perguruan Tinggi`)),
  Mean = c(mean(data$SD), mean(data$SMP), mean(data$SMU), mean(data$SMK), mean(data$`Perguruan Tinggi`)),
  Max= c(max(data$SD), max(data$SMP), max(data$SMU), max(data$SMK), max(data$`Perguruan Tinggi`)),
  Std = c(sd(data$SD), sd(data$SMP), sd(data$SMU), sd(data$SMK), sd(data$`Perguruan Tinggi`))
)

kable(summ, caption = 'Hasil Statistika Deskriptif', align = 'c')

Menimpor data dari excel ke R dan melakukan analisis statistika deskriptif meliputi nilai min, mean, max, dan standar deviasi.

3.3. Menentukan K-optimal

fviz_nbclust(data[,-1], kmeans, method = "silhouette")

Menentukan banyak cluster optimal menggunakan metode Silhouette.

3.4. Metode K-Means

3.4.1. Menentukan Anggota Kelompok

set.seed(123)
km <- kmeans(data[,-1], centers = 2)

data$cluster <- as.factor(km$cluster)
kable(data, caption = 'Tabel Provinsi di Indonesia')
c1 = data$PROVINSI[data$cluster == 1]
c2 = data$PROVINSI[data$cluster == 2]
c1 = paste(c1, collapse = ',')
c2 = paste(c2, collapse = ',')

kelompok = data.frame(
  Cluster = c(' cluster 1','cluster 2'),
  Anggota = c(c1,c2)
)
kable(kelompok, caption = 'Anggota kelompok hasil  clustering')

Melakukan analisis cluster menggunakan algoritma K-Means untuk menentukan letak provinsi di cluster yang tepat.

3.4.2. Visualisasi

fviz_cluster(km, data = dataclust)
karakteristik <- dataclust %>%
  mutate( cluster = km$cluster) %>%
  group_by(cluster) %>%
  summarise_all("mean")

kable(karakteristik, caption = 'Karakteristik Cluster', digits = 3)

Membuat visualisasi cluster dalam bentuk plot.

3.5. Indeks Validitas

sil <- silhouette(km$cluster, dist(dataclust, method = 'euclidean'))
sil_df <- as.data.frame(sil)
sil_avg_per_cluster <- sil_df %>% 
  group_by(cluster) %>%
  summarise(`Mean Silhouette` = mean(sil_width))

kable(sil_avg_per_cluster, caption = 'Rata-rata nilai silhouette tiap cluster', digits = 3)

Menghitung indeks validitas silhouette untuk menentukan seberapa baik cluster yang terbentuk.

4. Hasil dan Pembahasan

4.1. Data

## # A tibble: 6 × 6
##   PROVINSI            SD   SMP   SMU   SMK `Perguruan Tinggi`
##   <chr>            <dbl> <dbl> <dbl> <dbl>              <dbl>
## 1 ACEH              3382  1421   735   205                119
## 2 SUMATERA UTARA    5003  2319  1147   712                202
## 3 SUMATERA BARAT    1256   808   415   180                102
## 4 RIAU              1811  1210   631   259                 80
## 5 JAMBI             1484   810   393   169                 42
## 6 SUMATERA SELATAN  2996  1410   720   252                 99
Hasil Statistika Deskriptif
Variabel Min Mean Max Std
SD 264 1907.10526 8442 2016.0023
SMP 110 1021.97368 4905 1119.5543
SMU 32 477.13158 2587 554.0661
SMK 15 289.73684 2070 441.7799
PT 8 86.55263 477 110.2439

Simpangan baku yang tinggi sebesar \(2016\) menunjukkan ketimpangan persebaran SD yang signifikan. Beberapa provinsi memiliki jumlah SD yang jauh lebih banyak dibandingkan provinsi lain. Nilai maksimum yang mencapai \(8442\) sekolah menunjukkan adanya provinsi dengan kepadatan SD yang sangat tinggi.

Jumlah SMP juga menunjukkan perbedaan besar antardaerah, meskipun tidak setinggi SD. Simpangan baku lebih dari \(1000\) menandakan distribusi yang masih sangat bervariasi. Ada provinsi dengan hanya \(110\) SMP, sementara yang terbanyak mencapai \(4.905\).

Nilai minimum yang rendah \(32\) dibandingkan maksimum \(2587\) menunjukkan adanya kesenjangan antardaerah. Rata-rata \(477\) sekolah menandakan bahwa mayoritas provinsi berada pada kisaran ratusan SMA.Sedangkan jumlah SMK sangat beragam dan memiliki ketimpangan terbesar relatif terhadap rata-ratanya. Provinsi dengan jumlah SMK terbanyak sangat jauh melampaui provinsi dengan jumlah terendah, menunjukkan ketidakseimbangan fasilitas pendidikan kejuruan di Indonesia.

Perguruan tinggi memiliki penyebaran paling kecil dibanding jenjang lainnya, tetapi masih terlihat ketimpangan. Nilai minimum \(8\) dan maksimum \(477\) menunjukkan perbedaan cukup besar. Simpangan baku $110 menunjukkan variasi sedang-tinggi, namun relatif lebih stabil dibanding jenjang SD–SMK.

4.2. Menentukan K-optimal

Berdasarkan plot, titik yang berada di puncak garis yaitu pada saat banyak cluster sebanyak \(2\) Maka, berdasarkan metode silhouette, banyak cluster optimal adalah \(2\) cluster

4.3. Metode K-Means

4.3.1 Menentukan Anggota Kelompok

Tabel Provinsi di Indonesia
PROVINSI SD SMP SMU SMK Perguruan Tinggi cluster
ACEH 3382 1421 735 205 119 1
SUMATERA UTARA 5003 2319 1147 712 202 2
SUMATERA BARAT 1256 808 415 180 102 1
RIAU 1811 1210 631 259 80 1
JAMBI 1484 810 393 169 42 1
SUMATERA SELATAN 2996 1410 720 252 99 1
BENGKULU 1187 488 194 93 27 1
LAMPUNG 2537 1437 695 405 96 1
KEP. BANGKA BELITUNG 391 217 85 49 16 1
KEP. RIAU 408 249 132 62 33 1
DKI JAKARTA 264 255 219 207 129 1
JAWA BARAT 5948 4314 2191 2070 477 2
JAWA TENGAH 8423 3692 1343 1204 314 2
DI YOGYAKARTA 437 310 148 139 66 1
JAWA TIMUR 8442 4905 2587 1690 465 2
BANTEN 1544 1259 702 540 134 1
BALI 710 313 148 131 41 1
NUSA TENGGARA BARAT 1157 924 587 287 79 1
NUSA TENGGARA TIMUR 3331 1699 667 341 60 1
KALIMANTAN BARAT 2079 1153 437 189 58 1
KALIMANTAN TENGAH 1545 799 274 120 22 1
KALIMANTAN SELATAN 1878 777 323 111 56 1
KALIMANTAN TIMUR 1002 551 243 151 48 1
KALIMANTAN UTARA 312 158 63 31 13 1
SULAWESI UTARA 1564 716 250 177 70 1
SULAWESI TENGAH 1928 966 345 168 42 1
SULAWESI SELATAN 2972 1789 824 333 155 1
SULAWESI TENGGARA 1875 911 415 154 40 1
GORONTALO 658 363 109 55 16 1
SULAWESI BARAT 631 406 168 112 23 1
MALUKU 1104 626 274 100 45 1
MALUKU UTARA 1090 616 294 142 25 1
PAPUA BARAT 501 147 59 20 16 1
PAPUA BARAT DAYA 460 164 78 32 18 1
PAPUA 655 239 106 45 27 1
PAPUA SELATAN 545 110 32 24 10 1
PAPUA TENGAH 430 135 50 36 16 1
PAPUA PEGUNUNGAN 530 169 48 15 8 1
Anggota kelompok hasil clustering
Cluster Anggota
cluster 1 ACEH,SUMATERA BARAT,RIAU,JAMBI,SUMATERA SELATAN,BENGKULU,LAMPUNG,KEP. BANGKA BELITUNG,KEP. RIAU,DKI JAKARTA,DI YOGYAKARTA,BANTEN,BALI,NUSA TENGGARA BARAT,NUSA TENGGARA TIMUR,KALIMANTAN BARAT,KALIMANTAN TENGAH,KALIMANTAN SELATAN,KALIMANTAN TIMUR,KALIMANTAN UTARA,SULAWESI UTARA,SULAWESI TENGAH,SULAWESI SELATAN,SULAWESI TENGGARA,GORONTALO,SULAWESI BARAT,MALUKU,MALUKU UTARA,PAPUA BARAT,PAPUA BARAT DAYA,PAPUA,PAPUA SELATAN,PAPUA TENGAH,PAPUA PEGUNUNGAN
cluster 2 SUMATERA UTARA,JAWA BARAT,JAWA TENGAH,JAWA TIMUR

Berdasarkan hasil dari algoritma K-means provinsi di Indonesia sudah terbagi menjadi \(2\) kelompok. Pada cluster 1, terdapat \(34\) provinsi dan pada cluster 2 terdapat \(4\) provinsi.

4.3.2 Visualisasi

Karakteristik Cluster
cluster SD SMP SMU SMK Perguruan Tinggi
1 1313.353 694.265 319.5 156.882 53.853
2 6954.000 3807.500 1817.0 1419.000 364.500

Berdasarkan hasil analisis cluster pada tabel, terlihat bahwa cluster 1 memiliki jumlah SD, SMP, SMU, SMK, dan Perguruan Tinggi yang jauh lebih rendah dibandingkan cluster 2. Hal ini menunjukkan bahwa cluster 1 cenderung mewakili wilayah dengan tingkat pendidikan relatif lebih rendah dan jumlah populasi yang lebih kecil di setiap jenjang pendidikan. Sebaliknya, cluster 2 ditandai dengan jumlah yang jauh lebih besar pada semua tingkat pendidikan, mulai dari SD hingga Perguruan Tinggi. Kondisi ini menggambarkan bahwa cluster 2 merupakan kelompok wilayah dengan jumlah pencapaian pendidikan yang lebih tinggi dibandingkan cluster 1. Dengan demikian, perbedaan utama antara kedua cluster adalah pada jumlah tempat pendidikan, di mana cluster 2 berada pada kategori tinggi dan cluster 1 berada pada kategori rendah.

4.4. Indeks Validitas

Rata-rata nilai silhouette tiap cluster
cluster Mean Silhouette
1 0.806
2 0.495

Nilai rata-rata silhouette pada masing-masing cluster menunjukkan seberapa baik setiap provinsi cocok dengan cluster-nya dibandingkan dengan cluster lainnya. Semakin tinggi nilai silhouette, semakin baik pemisahan cluster yang terbentuk. Secara keseluruhan, hasil evaluasi silhouette mendukung bahwa pemilihan dua cluster dalam analisis ini cukup baik, dengan mayoritas cluster menunjukkan nilai silhouette yang tinggi.

5. Kesimpulan dan Saran

5.1. Kesimpulan

Berdasarkan hasil analisis dan pembahasan yang telah dilakukan, maka kesimpulan dari penelitian ini adalah:

  1. Jumlaah cluster optimal untuk mengklasifikasikan provinsi di Indonesia berdasarkan fasilitias pendidikan sebanyak \(2\) cluster.

  2. Rata-rata jumlah fasilitas pendidikan pada cluster 2 lebih tinggi dibandingkan dengan cluster 1 sehingga cluster 2 berada pada kategori tinggi dan cluster 1 berada pada kategori rendah.

5.2. Saran

Berdasarkan hasil penelitian ini, disarankan untuk Pemerintah daerah di provinsi cluster 1 disarankan untuk melakukan evaluasi mendalam terkait faktor-faktor yang menyebabkan rendahnya jumlah fasilitas pendidikan, seperti keterbatasan anggaran, kondisi geografis, atau kepadatan penduduk. Intervensi yang lebih terarah dapat dirancang untuk meningkatkan akses dan ketersediaan fasilitas pendidikan. Selain itu, penelitian mendatang dapat menggunakan metode klasterisasi yang mempertimbangkan aspek spasial, seperti Spatial K-Means atau Geographically Weighted clustering, sehingga kedekatan geografis antarwilayah dapat tercermin dalam hasil pengelompokan. Peneliti juga dapat menambahkan variabel tambahan seperti kepadatan penduduk, luas wilayah, tingkat aksesibilitas pendidikan, dan indikator sosial ekonomi lainnya untuk memperoleh cluster yang lebih kaya dan representatif.

6. Daftar Pustaka

Awaliyah, L., Rahaningsih, N., & Dana, R., D. (2024). Implementasi Algoritma K-Means Dalam Analisis Cluster Korban Kekerasan di Provinsi Jawa Barat. JATI (Jurnal Mahasiswa Teknik Informatika), 8(1), 188-195.
Putri, A. A. A., & Rahmah, S. A. (2024). Implementasi Data Mining dengan Algoritma K-Means Clustering untuk Analisis Bisnis pada Perusahaan Asuransi. Jurnal Teknologi Informasi, 5(1), 139-152.
Pribadi, W. W., Yunus, A., & Wiguna, A. S. (2022). Perbandingan Metode K-Means Euclidean Distance dan Manhattan Distance pada Penentuan Zonasi COVID-19 di Kabupaten Malang. JATI (Jurnal Mahasiswa Teknik Informatika), 6(2), 493-500.