Pendidikan merupakan salah satu pilar penting dalam pembangunan nasional karena berperan langsung dalam meningkatkan kualitas sumber daya manusia. Pemerataan dan ketersediaan fasilitas pendidikan, seperti jumlah sekolah pada setiap jenjang, menjadi indikator strategis untuk menilai sejauh mana suatu wilayah mampu menyediakan layanan pendidikan yang memadai bagi masyarakatnya. Indonesia sebagai negara kepulauan dengan karakteristik geografis dan demografis yang sangat beragam memiliki tantangan besar dalam mewujudkan pemerataan tersebut. Perbedaan kondisi antarprovinsi sering kali menyebabkan ketimpangan jumlah dan distribusi sekolah.
Untuk memahami pola persebaran fasilitas pendidikan secara lebih komprehensif, diperlukan analisis kuantitatif yang mampu mengelompokkan provinsi berdasarkan kesamaan karakteristik jumlah sekolah di berbagai jenjang pendidikan, mulai dari SD, SMP, SMA, SMK, hingga perguruan tinggi. Salah satu metode analisis yang umum digunakan untuk tujuan pengelompokan adalah analisis cluster, khususnya metode k-means yang termasuk dalam kategori cluster non hirarki.
Metode k-means memungkinkan pengelompokan provinsi ke dalam beberapa klaster yang memiliki karakteristik serupa sehingga dapat memberikan gambaran mengenai wilayah dengan tingkat ketersediaan fasilitas pendidikan yang tinggi, sedang, ataupun rendah. Hasil analisis ini dapat digunakan sebagai dasar dalam pengambilan keputusan, perencanaan pembangunan pendidikan, maupun alokasi sumber daya secara lebih tepat sasaran.
Berdasarkan latar belakang yang telah dibuat, diperoleh rumusan masalah sebagai berikut.
Berapa jumlah klaster yang paling sesuai untuk mengklasifikasikan provinsi di Indonesia berdasarkan persebaran fasilitas pendidikan?
Apa karakteristik masing-masing klaster yang terbentuk dan bagaimana perbedaan kondisi pendidikan antar klaster tersebut?
Berdasarkan rumusan masalah yang telah dibuat, tujuan penelitian ini adalah sebagai berikut.
Untuk menentukan jumlah klaster yang paling sesuai dalam menggambarkan pola persebaran fasilitas pendidikan antarprovinsi.
Untuk menganalisis karakteristik masing-masing klaster yang terbentuk serta memahami perbedaan kondisi pendidikan antar klaster.
Analisis cluster merupakan metode statistik yang diterapkan untuk mengelompokkan sejumlah data atau objek ke dalam cluster berdasarkan karakteristik yang dimiliki oleh data atau objek tersebut (Awaliyah dkk., 2024). Objek-objek yang berada dalam satu kelompok diharapkan memiliki tingkat kesamaan yang lebih tinggi dibandingkan dengan objek-objek dari kelompok lainnya (Hair dkk., 2010). Analisis cluster yang baik memiliki ciri-ciri sebagai berikut.
Secara umum, analisis cluster dibagi menjadi dua metode, yaitu metode hirarki dan metode non-hirarki. Metode hirarki merupakan metode pengelompokan ketika banyak cluster belum diketahui. Metode hirarki melakukan pengelompokan dengan terlebih dahulu menggabungkan dua atau lebih objek yang memiliki karakteristik serupa. Proses ini kemudian berlanjut dengan menggabungkan objek lain yang paling mirip secara bertahap hingga terbentuk struktur berjenjang yang jelas antar objek, yang biasanya divisualisasikan dalam bentuk dendrogram. Metode non-hirarki merupakan metode pengelompokan dengan menentukan banyak cluster terlebih dahulu berdasarkan preferensi atau kebutuhan peneliti. Setelah menentukan banyak cluster, maka selanjutnya akan ditentukan centroid dari setiap cluster, kemudian jarak setiap objek dengan centroid dihitung dan centroid yang baru kembali dihitung. Proses ini berlanjut sampai tidak ada pemindahan objek ke cluster lain.
Salah satu metode analisis cluster non-hirarki yang sering digunakan adalah analisis K-Means clustering. K-Means adalah algoritma yang mengelompokkan data ke dalam beberapa cluster berdasarkan kesamaan karakteristik tertentu (Putri & Rahmah, 2024). Prinsip utama metode K-Means yaitu menyusun centroid dari sekumpulan data berdimensi. Metode ini membutuhkan parameter input sebanyak 𝑘 dan membagi sekumpulan 𝑛 objek ke dalam cluster sebanyak 𝑘 sehingga terbentuk cluster yang baik dengan homogenitas internal yang tinggi dan heterogenitas eksternal yang tinggi (Johnson & Wichern, 2007). Tahapan algoritma K-Means adalah sebagai berikut.
Menentukan besar 𝑘 sebagai banyak cluster yang ingin dibentuk.
Mengelompokkan objek ke dalam cluster secara acak.
Menentukan centroid awal untuk setiap cluster berdasarkan objek yang telah dikelompokkan.
Menghitung jarak objek dengan centroid menggunakan rumus jarak Euclidean.
Mengelompokkan setiap objek ke dalam cluster berdasarkan jarak minimum. \[Cluster(X_i)=min\ d(x_i, C_k)\]
Melakukan proses iterasi dengan menentukan centroid baru menggunakan persamaan berikut.
\[C_i = \frac{\sum_{i=1}^n X_i}{n}\]
Melakukan iterasi dengan mengulangi langkah 4 hingga 6 sampai tidak ada lagi objek yang berpindah cluster.
Melakukan validasi hasil cluster menggunakan Indeks Shilouette.
Jarak Euclidean merupakan salah satu ukuran jarak yang paling umum digunakan dalam analisis cluster di mana jarak ini menggunakan prinsip phytagoras. Jarak Euclidean merupakan salah satu metode perhitungan yang digunakan untuk menentukan jarak antara dua titik dalam ruang Euclidean, baik dalam dua dimensi, tiga dimensi, maupun dimensi yang lebih tinggi (Pribadi dkk., 2022).
Rumus yang digunakan untuk menghitung jarak Euclidean ditunjukkan
pada persamaan berikut. \[
d(x,y)=\sqrt{\sum_{i=1}^n(x_i-y_i)^2}
\] dengan:
\(d(x,y)\) =
Jarak Euclidean antar objek \(x\) dan \(y\)
\(x_i\) = Nilai variabel ke-\(i\) objek \(x\)
\(y_i\) = Nilai variabel ke-\(i\) objek \(y\)
Indeks Silhoutte dapat dihitung dengan rumus sebagai
berikut: \[
S(i)=\frac{b(i)-a(i)}{max\{a(i),b(i)\}}
\] dengan:
\(a(i)\) =
rata-rata kemiripan antara objek ke-\(i\) dengan objek lain di dalam clusternya
\(b(i)\) = nilai minimum dari
rata-rata kemiripan antara objek ke-\(i\) dengan objek lain di luar
cluster
Indeks ini mengukur derajat kepercayaan dalam
proses clustering pada pengamatan tertentu dengan cluster yang dikatakan
terbentuk baik bila nilai indeks mendekati 1 dan sebaliknya jika nilai
indeks mendekati -1.
library(tidyverse)
library(readxl)
library(factoextra)
library( cluster)
library(knitr)
Mengaktifkan packages yang akan digunakan untuk melakukan analisis.
data = read_excel('C:/Kuliah/SEMESTER 5/Analisis Multivariat 1/DATA_SEKOLAH.xlsx')
head(data)
dataclust = (data[,-1])
summ = data.frame(
Variabel = c('SD', 'SMP', 'SMU', 'SMK', 'PT'),
Min = c(min(data$SD), min(data$SMP), min(data$SMU), min(data$SMK), min(data$`Perguruan Tinggi`)),
Mean = c(mean(data$SD), mean(data$SMP), mean(data$SMU), mean(data$SMK), mean(data$`Perguruan Tinggi`)),
Max= c(max(data$SD), max(data$SMP), max(data$SMU), max(data$SMK), max(data$`Perguruan Tinggi`)),
Std = c(sd(data$SD), sd(data$SMP), sd(data$SMU), sd(data$SMK), sd(data$`Perguruan Tinggi`))
)
kable(summ, caption = 'Hasil Statistika Deskriptif', align = 'c')
Menimpor data dari excel ke R dan melakukan analisis statistika deskriptif meliputi nilai min, mean, max, dan standar deviasi.
fviz_nbclust(data[,-1], kmeans, method = "silhouette")
Menentukan banyak cluster optimal menggunakan metode Silhouette.
set.seed(123)
km <- kmeans(data[,-1], centers = 2)
data$cluster <- as.factor(km$cluster)
kable(data, caption = 'Tabel Provinsi di Indonesia')
c1 = data$PROVINSI[data$cluster == 1]
c2 = data$PROVINSI[data$cluster == 2]
c1 = paste(c1, collapse = ',')
c2 = paste(c2, collapse = ',')
kelompok = data.frame(
Cluster = c(' cluster 1','cluster 2'),
Anggota = c(c1,c2)
)
kable(kelompok, caption = 'Anggota kelompok hasil clustering')
Melakukan analisis cluster menggunakan algoritma K-Means untuk menentukan letak provinsi di cluster yang tepat.
fviz_cluster(km, data = dataclust)
karakteristik <- dataclust %>%
mutate( cluster = km$cluster) %>%
group_by(cluster) %>%
summarise_all("mean")
kable(karakteristik, caption = 'Karakteristik Cluster', digits = 3)
Membuat visualisasi cluster dalam bentuk plot.
sil <- silhouette(km$cluster, dist(dataclust, method = 'euclidean'))
sil_df <- as.data.frame(sil)
sil_avg_per_cluster <- sil_df %>%
group_by(cluster) %>%
summarise(`Mean Silhouette` = mean(sil_width))
kable(sil_avg_per_cluster, caption = 'Rata-rata nilai silhouette tiap cluster', digits = 3)
Menghitung indeks validitas silhouette untuk menentukan seberapa baik cluster yang terbentuk.
## # A tibble: 6 × 6
## PROVINSI SD SMP SMU SMK `Perguruan Tinggi`
## <chr> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 ACEH 3382 1421 735 205 119
## 2 SUMATERA UTARA 5003 2319 1147 712 202
## 3 SUMATERA BARAT 1256 808 415 180 102
## 4 RIAU 1811 1210 631 259 80
## 5 JAMBI 1484 810 393 169 42
## 6 SUMATERA SELATAN 2996 1410 720 252 99
| Variabel | Min | Mean | Max | Std |
|---|---|---|---|---|
| SD | 264 | 1907.10526 | 8442 | 2016.0023 |
| SMP | 110 | 1021.97368 | 4905 | 1119.5543 |
| SMU | 32 | 477.13158 | 2587 | 554.0661 |
| SMK | 15 | 289.73684 | 2070 | 441.7799 |
| PT | 8 | 86.55263 | 477 | 110.2439 |
Simpangan baku yang tinggi sebesar \(2016\) menunjukkan ketimpangan persebaran SD yang signifikan. Beberapa provinsi memiliki jumlah SD yang jauh lebih banyak dibandingkan provinsi lain. Nilai maksimum yang mencapai \(8442\) sekolah menunjukkan adanya provinsi dengan kepadatan SD yang sangat tinggi.
Jumlah SMP juga menunjukkan perbedaan besar antardaerah, meskipun tidak setinggi SD. Simpangan baku lebih dari \(1000\) menandakan distribusi yang masih sangat bervariasi. Ada provinsi dengan hanya \(110\) SMP, sementara yang terbanyak mencapai \(4.905\).
Nilai minimum yang rendah \(32\) dibandingkan maksimum \(2587\) menunjukkan adanya kesenjangan antardaerah. Rata-rata \(477\) sekolah menandakan bahwa mayoritas provinsi berada pada kisaran ratusan SMA.Sedangkan jumlah SMK sangat beragam dan memiliki ketimpangan terbesar relatif terhadap rata-ratanya. Provinsi dengan jumlah SMK terbanyak sangat jauh melampaui provinsi dengan jumlah terendah, menunjukkan ketidakseimbangan fasilitas pendidikan kejuruan di Indonesia.
Perguruan tinggi memiliki penyebaran paling kecil dibanding jenjang lainnya, tetapi masih terlihat ketimpangan. Nilai minimum \(8\) dan maksimum \(477\) menunjukkan perbedaan cukup besar. Simpangan baku $110 menunjukkan variasi sedang-tinggi, namun relatif lebih stabil dibanding jenjang SD–SMK.
Berdasarkan plot, titik yang berada di puncak garis yaitu pada saat banyak cluster sebanyak \(2\) Maka, berdasarkan metode silhouette, banyak cluster optimal adalah \(2\) cluster
| PROVINSI | SD | SMP | SMU | SMK | Perguruan Tinggi | cluster |
|---|---|---|---|---|---|---|
| ACEH | 3382 | 1421 | 735 | 205 | 119 | 1 |
| SUMATERA UTARA | 5003 | 2319 | 1147 | 712 | 202 | 2 |
| SUMATERA BARAT | 1256 | 808 | 415 | 180 | 102 | 1 |
| RIAU | 1811 | 1210 | 631 | 259 | 80 | 1 |
| JAMBI | 1484 | 810 | 393 | 169 | 42 | 1 |
| SUMATERA SELATAN | 2996 | 1410 | 720 | 252 | 99 | 1 |
| BENGKULU | 1187 | 488 | 194 | 93 | 27 | 1 |
| LAMPUNG | 2537 | 1437 | 695 | 405 | 96 | 1 |
| KEP. BANGKA BELITUNG | 391 | 217 | 85 | 49 | 16 | 1 |
| KEP. RIAU | 408 | 249 | 132 | 62 | 33 | 1 |
| DKI JAKARTA | 264 | 255 | 219 | 207 | 129 | 1 |
| JAWA BARAT | 5948 | 4314 | 2191 | 2070 | 477 | 2 |
| JAWA TENGAH | 8423 | 3692 | 1343 | 1204 | 314 | 2 |
| DI YOGYAKARTA | 437 | 310 | 148 | 139 | 66 | 1 |
| JAWA TIMUR | 8442 | 4905 | 2587 | 1690 | 465 | 2 |
| BANTEN | 1544 | 1259 | 702 | 540 | 134 | 1 |
| BALI | 710 | 313 | 148 | 131 | 41 | 1 |
| NUSA TENGGARA BARAT | 1157 | 924 | 587 | 287 | 79 | 1 |
| NUSA TENGGARA TIMUR | 3331 | 1699 | 667 | 341 | 60 | 1 |
| KALIMANTAN BARAT | 2079 | 1153 | 437 | 189 | 58 | 1 |
| KALIMANTAN TENGAH | 1545 | 799 | 274 | 120 | 22 | 1 |
| KALIMANTAN SELATAN | 1878 | 777 | 323 | 111 | 56 | 1 |
| KALIMANTAN TIMUR | 1002 | 551 | 243 | 151 | 48 | 1 |
| KALIMANTAN UTARA | 312 | 158 | 63 | 31 | 13 | 1 |
| SULAWESI UTARA | 1564 | 716 | 250 | 177 | 70 | 1 |
| SULAWESI TENGAH | 1928 | 966 | 345 | 168 | 42 | 1 |
| SULAWESI SELATAN | 2972 | 1789 | 824 | 333 | 155 | 1 |
| SULAWESI TENGGARA | 1875 | 911 | 415 | 154 | 40 | 1 |
| GORONTALO | 658 | 363 | 109 | 55 | 16 | 1 |
| SULAWESI BARAT | 631 | 406 | 168 | 112 | 23 | 1 |
| MALUKU | 1104 | 626 | 274 | 100 | 45 | 1 |
| MALUKU UTARA | 1090 | 616 | 294 | 142 | 25 | 1 |
| PAPUA BARAT | 501 | 147 | 59 | 20 | 16 | 1 |
| PAPUA BARAT DAYA | 460 | 164 | 78 | 32 | 18 | 1 |
| PAPUA | 655 | 239 | 106 | 45 | 27 | 1 |
| PAPUA SELATAN | 545 | 110 | 32 | 24 | 10 | 1 |
| PAPUA TENGAH | 430 | 135 | 50 | 36 | 16 | 1 |
| PAPUA PEGUNUNGAN | 530 | 169 | 48 | 15 | 8 | 1 |
| Cluster | Anggota |
|---|---|
| cluster 1 | ACEH,SUMATERA BARAT,RIAU,JAMBI,SUMATERA SELATAN,BENGKULU,LAMPUNG,KEP. BANGKA BELITUNG,KEP. RIAU,DKI JAKARTA,DI YOGYAKARTA,BANTEN,BALI,NUSA TENGGARA BARAT,NUSA TENGGARA TIMUR,KALIMANTAN BARAT,KALIMANTAN TENGAH,KALIMANTAN SELATAN,KALIMANTAN TIMUR,KALIMANTAN UTARA,SULAWESI UTARA,SULAWESI TENGAH,SULAWESI SELATAN,SULAWESI TENGGARA,GORONTALO,SULAWESI BARAT,MALUKU,MALUKU UTARA,PAPUA BARAT,PAPUA BARAT DAYA,PAPUA,PAPUA SELATAN,PAPUA TENGAH,PAPUA PEGUNUNGAN |
| cluster 2 | SUMATERA UTARA,JAWA BARAT,JAWA TENGAH,JAWA TIMUR |
Berdasarkan hasil dari algoritma K-means provinsi di Indonesia sudah terbagi menjadi \(2\) kelompok. Pada cluster 1, terdapat \(34\) provinsi dan pada cluster 2 terdapat \(4\) provinsi.
| cluster | SD | SMP | SMU | SMK | Perguruan Tinggi |
|---|---|---|---|---|---|
| 1 | 1313.353 | 694.265 | 319.5 | 156.882 | 53.853 |
| 2 | 6954.000 | 3807.500 | 1817.0 | 1419.000 | 364.500 |
Berdasarkan hasil analisis cluster pada tabel, terlihat bahwa cluster 1 memiliki jumlah SD, SMP, SMU, SMK, dan Perguruan Tinggi yang jauh lebih rendah dibandingkan cluster 2. Hal ini menunjukkan bahwa cluster 1 cenderung mewakili wilayah dengan tingkat pendidikan relatif lebih rendah dan jumlah populasi yang lebih kecil di setiap jenjang pendidikan. Sebaliknya, cluster 2 ditandai dengan jumlah yang jauh lebih besar pada semua tingkat pendidikan, mulai dari SD hingga Perguruan Tinggi. Kondisi ini menggambarkan bahwa cluster 2 merupakan kelompok wilayah dengan jumlah pencapaian pendidikan yang lebih tinggi dibandingkan cluster 1. Dengan demikian, perbedaan utama antara kedua cluster adalah pada jumlah tempat pendidikan, di mana cluster 2 berada pada kategori tinggi dan cluster 1 berada pada kategori rendah.
| cluster | Mean Silhouette |
|---|---|
| 1 | 0.806 |
| 2 | 0.495 |
Nilai rata-rata silhouette pada masing-masing cluster menunjukkan seberapa baik setiap provinsi cocok dengan cluster-nya dibandingkan dengan cluster lainnya. Semakin tinggi nilai silhouette, semakin baik pemisahan cluster yang terbentuk. Secara keseluruhan, hasil evaluasi silhouette mendukung bahwa pemilihan dua cluster dalam analisis ini cukup baik, dengan mayoritas cluster menunjukkan nilai silhouette yang tinggi.
Berdasarkan hasil analisis dan pembahasan yang telah dilakukan, maka kesimpulan dari penelitian ini adalah:
Jumlaah cluster optimal untuk mengklasifikasikan provinsi di Indonesia berdasarkan fasilitias pendidikan sebanyak \(2\) cluster.
Rata-rata jumlah fasilitas pendidikan pada cluster 2 lebih tinggi dibandingkan dengan cluster 1 sehingga cluster 2 berada pada kategori tinggi dan cluster 1 berada pada kategori rendah.
Berdasarkan hasil penelitian ini, disarankan untuk Pemerintah daerah di provinsi cluster 1 disarankan untuk melakukan evaluasi mendalam terkait faktor-faktor yang menyebabkan rendahnya jumlah fasilitas pendidikan, seperti keterbatasan anggaran, kondisi geografis, atau kepadatan penduduk. Intervensi yang lebih terarah dapat dirancang untuk meningkatkan akses dan ketersediaan fasilitas pendidikan. Selain itu, penelitian mendatang dapat menggunakan metode klasterisasi yang mempertimbangkan aspek spasial, seperti Spatial K-Means atau Geographically Weighted clustering, sehingga kedekatan geografis antarwilayah dapat tercermin dalam hasil pengelompokan. Peneliti juga dapat menambahkan variabel tambahan seperti kepadatan penduduk, luas wilayah, tingkat aksesibilitas pendidikan, dan indikator sosial ekonomi lainnya untuk memperoleh cluster yang lebih kaya dan representatif.
Awaliyah, L., Rahaningsih, N., & Dana, R., D. (2024).
Implementasi Algoritma K-Means Dalam Analisis Cluster Korban Kekerasan
di Provinsi Jawa Barat. JATI (Jurnal Mahasiswa Teknik
Informatika), 8(1), 188-195.
Putri, A. A. A., & Rahmah, S.
A. (2024). Implementasi Data Mining dengan Algoritma K-Means Clustering
untuk Analisis Bisnis pada Perusahaan Asuransi. Jurnal Teknologi
Informasi, 5(1), 139-152.
Pribadi, W. W., Yunus, A., &
Wiguna, A. S. (2022). Perbandingan Metode K-Means Euclidean Distance dan
Manhattan Distance pada Penentuan Zonasi COVID-19 di Kabupaten Malang.
JATI (Jurnal Mahasiswa Teknik Informatika), 6(2), 493-500.