AGGLOMERATIVE HIERARCHICAL CLUSTERING PADA KUALTIAS PENDIDIKAN SEKOLAH DASAR DI JAWA TIMUR TAHUN 2024

Daffa Mahardian Khadafi

2025-11-20


Library:

> # install.packages("knitr")
> # install.packages("rmarkdown")
> # install.packages("prettydoc")
> # install.packages("equatiomatic")

1 PENDAHULUAN

1.1 Latar Belakang

Statistika sebagai ilmu yang berfokus pada pengolahan, analisis, dan interpretasi data, memegang peran sentral dalam mendukung pengambilan keputusan pada berbagai bidang, termasuk sektor pendidikan. Analisis multivariat, khususnya teknik dari unsupervised learning, banyak dimanfaatkan untuk memahami pola dan struktur dari data berdimensi banyak. Salah satu metode yang sering digunakan adalah clustering, yaitu teknik untuk mengelompokkan objek ke dalam kelompok yang homogen berdasarkan kemiripan karakteristiknya (Johnson & Wichern, 2019).

Dalam pengembangan metode clustering, Agglomerative Hierarchical Clustering (AHC) menjadi salah satu metode yang paling luas diterapkan dalam penelitian sosial dan pendidikan karena kemampuannya untuk mengungkap struktur natural dari data melalui dendrogram, menangani variabel dengan skala berbeda, serta tidak memerlukan penentuan jumlah klaster sejak awal (Murtagh & Contreras, 2017). Seperti pada penelitian Rahmawati dan Wibowo (2019) yang menunjukkan bahwa AHC efektif digunakan untuk analisis ketimpangan wilayah dan pengelompokan sekolah.

Pendidikan merupakan elemen fundamental dalam pembangunan manusia. Provinsi Jawa Timur, sebagai salah satu provinsi dengan jumlah penduduk terbesar di Indonesia, memiliki variaasi capaian pendidikan yang cukup tinggi antarwilayah. Laporan Dinas Pendidikan tahun 2023 menunjukkan adanya perbedaan signifikan dalam kualitas sarana prasarana, kualifikasi guru, tingkat partisipasi sekolah, serta indikator mutu pendidikan lainnya, hal tersebut juga diperkuat pada statistik pendidikan Jawa Timur oleh BPS. Sari dan Kurniawan (2018) juga menyebutkan bahwa terdapat ketimpangan mutu pendidikan antarkabupaten/kota di provinsi Jawa Timur, yang dipengaruhi oleh kondisi sosial ekonomi, akses layanan pendidikan, dan ketersediaan tenaga pengajar yang kompeten.

Pada tahun 2024, urgensi pemetaan kualitas pendidikan sekolah dasar semakin meningkat karena beberapa alasan penting. Pertama, pemulihan pasca-pandemi mengharuskan pemerintah untuk mengidentifikasi wilayah yang mengalami learning loss lebih dalam, sehingga membutuhkan intervensi prioritas (UNESCO, 2023). Kedua, pemerintah daerah menargetkan pemerataan mutu pendidikan melalui program peningkatan kualitas guru dan infrastruktur, yang membutuhkan klasifikasi wilayah berbasis data objektif (Kemendikbudristek, 2024). Ketiga, data indikator pendidikan dasar dari Badan Pusat Statistik (BPS) tahun 2024 menyediakan landasan kuantitatif yang memungkinkan analisis pengelompokan wilayah secara komprehensif dan akurat.

Dengan demikian, penerapan Agglomerative Hierarchical Clustering pada kualitas pendidikan sekolah dasar di Jawa Timur tahun 2024 menjadi sangat relevan. Analisis ini tidak hanya membantu mengidentifikasi kelompok wilayah dengan karakteristik mutu pendidikan yang serupa, tetapi juga dapat menjadi dasar bagi penyusunan kebijakan peningkatan pendidikan yang lebih terkonsentrasi, efektif, dan tepat sasaran.

1.2 Rumusan Masalah

  1. Bagaimana pola pengelompokkan kualitas pendidikan sekolah dasar di Jawa Timur pada tahun 2024 berdasarkan indikator yang tersedia?
  2. Berapa jumlah klaster optimal yang terbentuk dari hasil Agglomerative Hierarchical Clustering?
  3. Bagaimana karakteristik setiap klaster yang dihasilkan, serta apa implikasinya bagi pemerataan kualitas pendidikan di Jawa Timur?

1.3 Tujuan

  1. Melakukan pengelompokkan kabupaten/kota di Jawa Timur berdasarkan kualitas pendidikan sekolah dasar tahun 2024.
  2. Menentukan jumlah klaster optimal menggunakan metode Agglomerative Hierarchical Clustering.
  3. Mendeskripsikan karakteristik masing-masing klaster sebagai dasar untuk memahami variasi dan ketimpangan kualitas pendidikan antar wilayah.

2 SOURCE CODE

2.1 Library

> library(readxl)
> library(dplyr)
> library(tidyr)
> library(ggplot2)
> library(corrplot)
> library(psych)
> library(factoextra)
> library(cluster)
> library(clValid)
> library(dendextend)
> library(knitr)
> library(kableExtra)

2.2 Input Data

> # Input Data
> df <- read_excel("D:/Semester 7/Analisis Multivariat I/Praktikum/Laprak 2/Data Laprak 2.xlsx", sheet = "Analysis")
> head(df)
# A tibble: 6 Ă— 7
  `Kabupaten/Kota`    X1    X2    X3    X4    X5    X6
  <chr>            <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 Pacitan          31903   419  3775  93.8  66.8  34.7
2 Ponorogo         47531   571  4421  89.9  73.5  35.5
3 Trenggalek       39613   438  3644  95.1  74.9  34.1
4 Tulungagung      63208   632  6397  96.3  67.2  37.7
5 Blitar           61133   666  6000  94.2  70.7  35.3
6 Kediri           92389   702  6264  94.3  64.6  36.2

3 HASIL DAN PEMBAHASAN

3.1 Data

Data yang digunakan dalam penelitian ini adalah data sekunder yang diperoleh dari publikasi tabel statistik Badan Pusat Statistik Jawa Timur tahun 2025, dengan 38 amatan yang merupakan kabupaten/kota di Jawa Timur. Variabel Penelitian

Notasi Nama Variabel Satuan Skala
X1 Banyak Murid SD Orang Rasio
X2 Banyak Sekolah SD Unit Rasio
X3 Banyak Guru SD Orang Rasio
X4 Angka Melek Huruf Persen Rasio
X5 Tingkat Kegemaran Pembaca Persen Rasio
X6 Persentase Sedang Sekolah SD Persen Rasio

3.2 Metode Penelitian

Metode yang digunakan dalam penelitian ini adalah analisis Agglomerative Hierarchical Clustering dengan langkah-langkah sebagai berikut:

  1. Menentukan variabel, populasi, dan sampel yang akan diteliti
  2. Melakukan statistika deskriptif
  3. Melakukan uji korelasi pada variabel
  4. Penanganan korelasi tinggi antarvariabel dengan Principal Component Analysis
  5. Analisis agglomerative hierarchical clustering dengan membandingkan 5 metode linkage
  6. Interpretasi hasil analisis
  7. Menarik kesimpulan dan saran

3.3 Statistika Deskriptif

Analisis statistik deskriptif ini dilakukan dengan tujuan untuk mendeskripsikan dan melihat karakteristik pendidikan sekolah dasar di Jawa Timur tahun 2024.

> # Ringkasan statistik
> summary(df)
 Kabupaten/Kota           X1               X2               X3       
 Length:38          Min.   : 11268   Min.   :  55.0   Min.   :  735  
 Class :character   1st Qu.: 36195   1st Qu.: 408.5   1st Qu.: 3784  
 Mode  :character   Median : 60304   Median : 540.0   Median : 4878  
                    Mean   : 65837   Mean   : 499.3   Mean   : 4788  
                    3rd Qu.: 73038   3rd Qu.: 635.5   3rd Qu.: 6126  
                    Max.   :213412   Max.   :1157.0   Max.   :11424  
       X4              X5               X6       
 Min.   :84.54   Min.   : 64.62   Min.   :26.33  
 1st Qu.:92.48   1st Qu.: 72.08   1st Qu.:33.40  
 Median :94.28   Median : 76.21   Median :34.77  
 Mean   :94.01   Mean   : 77.14   Mean   :34.50  
 3rd Qu.:96.31   3rd Qu.: 80.25   3rd Qu.:36.09  
 Max.   :98.75   Max.   :100.00   Max.   :39.79  
> par(mfrow = c(2,3))
> hist(df$X1, main="Banyak Murid SD (X1)", xlab="Jumlah Murid", col = "lightblue")
> hist(df$X2, main="Banyak Sekolah SD (X2)", xlab="Jumlah Sekolah", col = "lightgreen")
> hist(df$X3, main="Banyak Guru SD (X3)", xlab="Jumlah Guru", col = "lightpink")
> hist(df$X4, main="Angka Melek Huruf (X4)", xlab="Persen", col = "lightyellow")
> hist(df$X5, main="Tingkat Kegemaran Pembaca (X5)", xlab="Persen", col = "lightgray")
> hist(df$X6, main="Persentase Sedang Sekolah SD (X6)", xlab="Persen", col = "lightcyan")

> par(mfrow = c(1,1))

3.4 Uji Non-Multikolinearitas

Uji non-multikolinearitas dilakukan menggunakan uji korelasi yang bertujuan untuk mengetahui hubungan antar variabel. Jika nilai korelasi lebih dari 0,7 atau kurang dari -0,7 maka perlu penanganan. Berikut merupakan hasil dari uji korelasi.

> kor <- cor(df[,2:7])
> corrplot(kor, method = "number", tl.cex = 0.9, number.cex = 0.9)

Hasil uji korelasi menunjukkan bahwa variabel X1, X2, dan X3 memiliki hubungan yang sangat kuat dan positif satu sama lain (0,77–0,92). Maka perlu dilakukan penanganan yaitu dengan mereduksi dimensi variabel menggunakan Principal Component Analysis (PCA)

3.5 Principal Component Analysis (PCA)

Principal Component Analysis (PCA) atau analisis komponen utama bertujuan untuk mereduksi banyak variabel yang akan diuji tanpa menghilangkan informasi penting dari data

> ## Dekomposisi Eigen
> kor_eig <- eigen(kor)
> ## Scree Plot
> plot(kor_eig$values, xlab="Eigenvalue Number", ylab="Eigenvalue Size",
+      main = "Scree Plot")
> lines(kor_eig$values)

> ## Nilai Kumulatif Eigen
> for (eg in kor_eig$values){
+   print(eg / sum(kor_eig$values))
+ }
[1] 0.4674065
[1] 0.3025609
[1] 0.1085748
[1] 0.09526783
[1] 0.01852433
[1] 0.007665666
> # Fungsi PCA
> PCA1 <- prcomp(x = df[,2:7], scale=T, center=T)
> PCA1
Standard deviations (1, .., p=6):
[1] 1.6746459 1.3473550 0.8071238 0.7560469 0.3333856 0.2144621

Rotation (n x k) = (6 x 6):
           PC1         PC2         PC3         PC4         PC5          PC6
X1  0.53307840 -0.27669397  0.03881941 -0.10122337  0.65989790  0.438234537
X2  0.57381325  0.08615238 -0.01940603 -0.02139332 -0.70251917  0.411033659
X3  0.57424223 -0.14636062  0.03592563 -0.10415136 -0.01351992 -0.797811683
X4 -0.22302760 -0.51842345  0.17590775 -0.78019518 -0.19892325  0.047720944
X5 -0.05649956 -0.54936849 -0.79576768  0.22720243 -0.10060534 -0.003672845
X6  0.06227455  0.56923472 -0.57674611 -0.56402409  0.14535093 -0.014407024
> # Ringkasan Data PCA
> summary(PCA1)
Importance of components:
                          PC1    PC2    PC3     PC4     PC5     PC6
Standard deviation     1.6746 1.3474 0.8071 0.75605 0.33339 0.21446
Proportion of Variance 0.4674 0.3026 0.1086 0.09527 0.01852 0.00767
Cumulative Proportion  0.4674 0.7700 0.8785 0.97381 0.99233 1.00000

Berdasarkan kumulatif proporsi varians, maka diambil 3 kumbunen utama dengan jumlah proporsi varians sebesar 0,8785, yang artinya PC1, PC2, dan PC3 sudah dapat mewakili seluruh variabel sebesar 87,85%.

> # Ambil skor komponen utama (nilai PC untuk tiap observasi)
> PC_scores <- as.data.frame(PCA1$x[, 1:3])
> # Ganti nama kolomnya agar jelas
> colnames(PC_scores) <- c("PC1", "PC2", "PC3")
> # Gabungkan dengan data awal (tambahkan ke variabel data)
> data_PCA <- cbind(df['Kabupaten/Kota'], PC_scores)
> head(data_PCA)
  Kabupaten/Kota        PC1        PC2        PC3
1        Pacitan -0.7191248 0.98368352  0.8489832
2       Ponorogo  0.2020752 1.29047550 -0.1388860
3     Trenggalek -0.7795614 0.08120989  0.3249999
4    Tulungagung  0.6077709 0.89323641  0.3645980
5         Blitar  0.6360396 0.54642133  0.4448995
6         Kediri  1.2018136 0.93992011  0.8204719
  1. Komponen Utama 1 (PC1) memiliki proporsi varians 46,74%, yang mana merupakan komponen paling dominan. Berdasarkan nilai loading, PC1 memiliki kontribusi positif besar dari variabel Banyak Murid SD (X1) sebesar 53,31%, Banyak Sekolah SD (X2) sebesar 57,38%, dan Banyak Guru SD (X3) sebesar 57,42%.
  2. Komponen Utama 2 (PC2) menjelaskan 30,26% varians dan menggambarkan suatu dimensi yang berbeda dari PC1. PC2 ditandai oleh adanya pola kontras antara variabel Persentase Sedang Skeolah SD (X6) yang memiliki loading positif besar, yaitu 56,92%, dengan dua variabel yang loadingnya negatif besar, yaitu Angka Melek Huruf (X4) sebesar -51,84% dan Tingkat Kegemaran Pembaca (X5) sebesar -54,94%.

3.6 Agglomerative Hierarchical Clustering

Agglomerative hierarchical clustering digunakan untuk mengelompokkan kabupaten/kota di Jawa Timur berdasarkan tingkat kualitas pendidikan SD.

> # Jarak Euclidean
> jarak <- dist(data_PCA[,2:4], method = "euclidean")
> 
> # Koefisien Korelasi Cophenetic
> ## Single Linkage
> hc_single <- hclust(jarak, method = "single")
> cor_single <- cor(jarak, cophenetic(hc_single))
> ## Average Linkage
> hc_average <- hclust(jarak, method = "average")
> cor_average <- cor(jarak, cophenetic(hc_average))
> ## Complete Linkage
> hc_complete <- hclust(jarak, method = "complete")
> cor_complete <- cor(jarak, cophenetic(hc_complete))
> ## Centroid Linkage
> hc_centroid <- hclust(jarak, method = "centroid")
> cor_centroid <- cor(jarak, cophenetic(hc_centroid))
> ## Ward’s Method
> hc_ward <- hclust(jarak, method = "ward.D")
> cor_ward <- cor(jarak, cophenetic(hc_ward))
> ## Ringkasan Koefisien Korelasi
> KorCop <- data.frame(
+   Metode = c("Single Linkage", "Average Linkage", "Complete Linkage", "Centroid Linkage", "Ward's Method"),
+   Koefisien_Korelasi = c(cor_single, cor_average, cor_complete, cor_centroid, cor_ward)
+ )
> KorCop
            Metode Koefisien_Korelasi
1   Single Linkage          0.8465368
2  Average Linkage          0.8494652
3 Complete Linkage          0.4720383
4 Centroid Linkage          0.8427933
5    Ward's Method          0.7198733

Nilai korelasi chopenetic paling tinggi yaitu 0,8495 pada algoritma average linkage, sehingga algoritma tersebut digunakan dalam clustering.

> inval <- clValid(data_PCA[1:38,2:4], 2:5, 
+                  clMethods = "hierarchical", 
+                  validation = "internal", 
+                  metric = "euclidean", 
+                  method = "average")
> summary(inval)

Clustering Methods:
 hierarchical 

Cluster sizes:
 2 3 4 5 

Validation Measures:
                                 2       3       4       5
                                                          
hierarchical Connectivity   2.9290  9.8833 16.8659 18.1159
             Dunn           0.4222  0.2998  0.2760  0.2760
             Silhouette     0.5116  0.4227  0.4030  0.3839

Optimal Scores:

             Score  Method       Clusters
Connectivity 2.9290 hierarchical 2       
Dunn         0.4222 hierarchical 2       
Silhouette   0.5116 hierarchical 2       
> plot_nb <- fviz_nbclust(data_PCA[1:38,2:4], FUNcluster = hcut,
+                         hc_method = "average", method = "silhouette")
> print(plot_nb)

Dari 2 hingga 5 cluster baik connectivity index, dunn index, dan silhouette index memiliki hasil perolehan yang sama, yaitu sebanyak 2 cluster yang merupakan nilai optimal.

> clus_hier <- eclust(data_PCA[1:38,2:4], FUNcluster = "hclust", k = 2, hc_method = "average", graph = TRUE)
> fviz_dend(clus_hier, rect = TRUE, main = "Hasil Analisis Cluster", cex = 0.5)

> 
> # Data Cluster
> anggota <- data.frame(
+   Cluster = cutree(hc_average, k = 2)
+ )
> df_Cluster <- data.frame(df,anggota)
> 
> # Ringkasan Cluster
> library(psych)
> describeBy(df_Cluster[, 2:7], group = df_Cluster$Cluster)

 Descriptive statistics by group 
group: 1
   vars  n     mean       sd   median  trimmed      mad      min       max
X1    1 37 61848.11 38813.71 59475.00 57407.03 22830.56 11268.00 167318.00
X2    2 37   495.24   261.81   522.00   487.97   169.02    55.00   1157.00
X3    3 37  4608.54  2259.95  4854.00  4556.29  1699.06   735.00   9656.00
X4    4 37    93.91     3.10    94.25    94.12     2.68    84.54     98.75
X5    5 37    76.53     7.87    76.17    75.76     6.08    64.62     99.34
X6    6 37    34.66     2.51    34.81    34.83     1.99    26.33     39.79
       range  skew kurtosis      se
X1 156050.00  1.04     0.79 6380.93
X2   1102.00  0.04     0.00   43.04
X3   8921.00 -0.05    -0.39  371.53
X4     14.21 -0.75     0.56    0.51
X5     34.72  0.96     0.83    1.29
X6     13.46 -0.91     1.83    0.41
------------------------------------------------------------ 
group: 2
   vars n      mean sd    median   trimmed mad       min       max range skew
X1    1 1 213412.00 NA 213412.00 213412.00   0 213412.00 213412.00     0   NA
X2    2 1    651.00 NA    651.00    651.00   0    651.00    651.00     0   NA
X3    3 1  11424.00 NA  11424.00  11424.00   0  11424.00  11424.00     0   NA
X4    4 1     97.78 NA     97.78     97.78   0     97.78     97.78     0   NA
X5    5 1    100.00 NA    100.00    100.00   0    100.00    100.00     0   NA
X6    6 1     28.80 NA     28.80     28.80   0     28.80     28.80     0   NA
   kurtosis se
X1       NA NA
X2       NA NA
X3       NA NA
X4       NA NA
X5       NA NA
X6       NA NA
  1. Cluster 1 hanya berisi Kota Surabaya, sehingga karakteristiknya mencerminkan profil kota metropolitan besar dengan tingkat perkembangan sosial-ekonomi paling maju di Jawa Timur. Secara umum, Cluster 1 merepresentasikan wilayah perkotaan besar dengan intensitas ekonomi, kepadatan penduduk, dan kualitas pelayanan publik yang sangat tinggi, sehingga memisah secara signifikan dari kabupaten/kota lainnya.
  2. Cluster 2 berisi 37 kabupaten/kota, yang mencerminkan wilayah dengan karakteristik sosial-ekonomi dan demografi yang lebih mirip satu sama lain dibandingkan dengan Kota Surabaya. Secara umum, Cluster 2 menggambarkan wilayah dengan karakteristik pendidikan yang masih berkembang, dengan pemerataan fasilitas dasar namun tanpa keunggulan ekstrem seperti Kota Surabaya.

3.7 Pembahasan

  1. Cluster 1 hanya terdiri dari Kota Surabaya, yang memiliki jumlah murid SD yang sangat besar karena merupakan pusat aktivitas perkotaan dan memiliki populasi tinggi. Meskipun jumlah sekolah SD dan guru SD juga tinggi, rasio murid terhadap sekolah dan guru relatif lebih efisien dibandingkan daerah lain karena kapasitas dan manajemen pendidikan di kota besar jauh lebih terstruktur. Kota Surabaya juga berada pada posisi tertinggi dalam angka melek huruf, yang menandakan keberhasilan fasilitas pendidikan dasar dan akses literasi yang merata. Tingkat kegemaran pembaca mencapai nilai maksimum dari seluruh wilayah, menunjukkan budaya literasi yang kuat, ditunjang oleh keberadaan perpustakaan, taman baca, dan fasilitas publik modern. Selain itu, persentase penduduk yang sedang bersekolah di jenjang SD berada pada angka tinggi, mencerminkan tingkat partisipasi sekolah yang optimal.
  2. Cluster 2 berisi 37 kabupaten/kota yang memiliki jumlah murid SD yang jauh lebih rendah dibanding Surabaya, mengikuti kondisi populasi yang tidak sebesar kota metropolitan. Jumlah sekolah SD dan jumlah guru SD juga lebih kecil, mencerminkan ketersediaan sarana pendidikan yang tersebar secara merata namun tidak sekompleks Kota Surabaya. Untuk angka melek huruf, sebagian besar wilayah cluster ini berada pada tingkat menengah hingga tinggi, namun tetap bervariasi antar daerah, terutama di wilayah pedesaan dan kepulauan seperti Madura. tingkat kegemaran pembaca menunjukkan variasi besar, menandakan adanya perbedaan budaya literasi antar daerah, di mana wilayah perkotaan menengah seperti Sidoarjo, Malang, dan Kediri cenderung memiliki minat baca lebih tinggi dibanding wilayah pinggiran atau pedesaan. Persentase penduduk yang sedang bersekolah di tingkat SD berada pada kisaran moderat dan tidak menunjukkan nilai ekstrem, mencerminkan partisipasi sekolah yang relatif stabil pada sebagian besar daerah.

4 PENUTUP

4.1 Kesimpulan

Berdasarkan hasil analisis Agglomerative Hierarchical Clustering terhadap kualitas pendidikan sekolah dasar di Jawa Timur tahun 2024, dapat ditarik kesimpulan sebagai berikut.

  1. Kabupaten/kota di Jawa Timur dapat dipisahkan ke dalam dua kelompok, yang menunjukkan adanya perbedaan yang cukup signifikan dalam kualitas pendidikan antarkabupaten/kota, terutama banyak murid, banyak sekolah, dan banyak guru, hingga tingkat literasi masyarakat.
  2. Hasil analisis dendogram dan validasi klaster menunjukkan bahwa banyak klaster optimal adalah dua klaster. Pemilihan dua klaster ini didasarkan pada average linkage atau jarak penggabungan berbasis rata-rata yang menampilkan pemisahan paling signifikan di antara kelompok data.
  3. Klaster pertama terdiri hanya dari Kota Surabaya yang memiliki ciri khas sebagai wilayah dengan kualias pendidikan tertinggi hampir semua indikator, mulai dari banyak murid, banyak guru, hingga ankga melek huruf dan tingkat kegemaran membaca. Sebaliknya, klaster dua terdiri dari 37 kabupaten/kota lainnya, yang memiliki karakteristik pendidikan pada kategori menengah. Meskipun indikator pendidikan di klaster ini masih baik, sebagian besar wilayah belum mencapai tingkat kualitas dan efisiensi dibanding Kota Surabaya.

4.2 Saran

Saran yang dapat diberikan berdasarkan hasil analisis yang dilakukan dalam penelitian in adalah sebagai berikut.

  1. Untuk pemerintah daerah, perlu meningkatkan upaya pemerataan kualitas pendidikan dasar, terlebih dalam klaster 2 yang memerlukan perhatian lebih dalam terkait penambahan sekolah, peningkatan kapasitas guru, serta penyediaan sarana pendukung pembelajaran.
  2. Untuk pemangku kebijakan pendidikan, dapat menyusun strategi khusus untuk klaster kedua, misalnya melalui program afirmasi fasilitas pendidikan dasar dan peningkatan kompetensi guru secara masif. Sementara itu, untuk klaster pertama yang hanya berisi Kota Surabaya, kebijakan dapat difokuskan pada pengembangan inovasi pendidikan agar wilayah tersebut tetap menjadi benchmark nasional.
  3. Untuk tenaga pendidikan di Jawa Timur, Kota Surabaya dapat dijadikan model bagi daera lain dalam hal pengelolaan pendidikan, terutama dalam memanfaatkan teknologi, mengembangkan fasilitas modern, dan menguatkan budaya literasi.
  4. Untuk peneliti selanjutnya, dapat menambahkan variabel lain yang lebih komprehensif, seperti rasio guru bersertifikat, kualitas sarana prasarana sekolah, tingkat kelulusan, prestasi akademik, akses teknologi pendidikan, serta tingkat partisipasi orang tua.
  5. Untuk peneliti selanjutnya, dapat mempertimbangkan penggunaan data time series agar analisis dapat menggambarkan perubahan kualitas pendidikan dari waktu ke waktu, bukan hanya pada satu periode.
  6. Untuk peneliti selanjutnya, dapat membandingkan metode clustering lain seperti K-Means, DBSCAN atau model berbasis machine learning.

5 DAFTAR PUSTAKA

BPS. (2024). Statistik Pendidikan Jawa Timur. BPS.

Dinas Pendidikan Provinsi Jawa Timur. (2023). Lapoan Kinerja Pendidikan Dasar. Dinas Pendidikan Provinsi Jawa Timur.

Johnson, R. A., & Wichern, D. W. (2019). Applied Multivariate Statistical Analysis. Pearson.

Kemendikbudristek. (2024). Rapor Pendidikan Indonesia. Kemendikbudristek.

Murtagh, F., & Contreras, P. (2017). Algorithms for Hierarchical Clustering: an Overview. WIREs Data Mining and Knowledge Discovery, 7(6).

Rahmawati, T., & Wibowo, S. (2019). Application of Hierarchical Clustering for School Performance Classification. Jurnal Statistika dan Komputasi, 8(2).

Sari, F., & Kurniawan, A. (2018). Educational Disparity Across Regions in East Java. Jurnal Pendidikan Indonesia, 7(1).

UNESCO. (2023). Learning Loss Recovery Report.

6 LAMPIRAN

Lampiran 1. Data Pendidikan SD Jawa Timur Tahun 2024
Kabupaten/Kota X1 X2 X3 X4 X5 X6
Pacitan 31903 419 3775 93.77 66.83 34.73
Ponorogo 47531 571 4421 89.87 73.48 35.50
Trenggalek 39613 438 3644 95.10 74.88 34.09
Tulungagung 63208 632 6397 96.33 67.22 37.68
Blitar 61133 666 6000 94.25 70.68 35.26
Kediri 92389 702 6264 94.30 64.62 36.24
Malang 167318 1157 9656 94.99 80.17 34.36
Lumajang 64446 558 4109 92.98 76.25 35.41
Jember 162596 1049 8750 89.56 67.90 33.22
Banyuwangi 102374 806 6890 93.86 88.73 37.90
Bondowoso 49450 465 4854 89.86 70.22 37.57
Situbondo 44076 426 4230 89.42 72.17 31.53
Probolinggo 70714 624 5101 88.07 77.76 36.66
Pasuruan 118772 719 7290 94.85 74.33 33.11
Sidoarjo 141919 585 8507 98.75 83.97 34.63
Mojokerto 59148 421 4319 95.31 66.98 32.03
Jombang 68063 522 4206 94.62 82.12 34.82
Nganjuk 67337 608 5383 93.76 77.26 36.15
Madiun 35056 405 3251 92.44 78.38 34.32
Magetan 34214 403 3813 93.77 72.06 37.64
Ngawi 45176 505 4557 91.96 72.25 34.84
Bojonegoro 66443 711 6168 92.50 84.53 37.17
Tuban 64432 567 4903 94.16 76.65 33.98
Lamongan 49345 636 5759 94.30 80.27 34.96
Gresik 74054 465 5053 97.39 67.51 33.93
Bangkalan 98633 680 5512 92.47 76.17 35.53
Sampang 73813 629 5114 84.54 72.97 37.20
Pamekasan 59475 476 5041 92.42 75.17 35.89
Sumenep 53754 634 6413 92.52 78.90 32.68
Kota Kediri 24641 140 1674 96.82 99.34 29.15
Kota Blitar 12169 63 792 97.62 68.26 34.29
Kota Malang 69408 287 4065 97.71 80.14 26.33
Kota Probolinggo 18275 86 979 94.38 72.13 39.79
Kota Pasuruan 17560 67 1055 97.46 76.77 31.95
Kota Mojokerto 11268 55 735 97.80 87.52 34.81
Kota Madiun 13492 68 831 98.39 96.53 34.31
Kota Surabaya 213412 651 11424 97.78 100.00 28.80
Kota Batu 15182 79 1005 96.26 80.39 32.58

Keterangan:

X1 = Jumlah Murid SD; X2 = Jumlah Sekolah SD; X3 = Jumlah Guru SD; X4 = Angka Melek Huruf; X5 = Tingkat Kegemaran Membaca; X6 = Persentase Sedang Sekolah SD