BAB I PENDAHULUAN

1.1 Latar Belakang Kasus

Pendidikan merupakan salah satu pilar utama dalam pembangunan nasional, terutama dalam meningkatkan kualitas sumber daya manusia (SDM) dan memperkuat daya saing bangsa. Akses terhadap fasilitas pendidikan yang merata menjadi faktor penting dalam menjamin pemerataan kesempatan belajar bagi seluruh masyarakat Indonesia. Pemerintah melalui Badan Pusat Statistik (BPS) secara rutin menyediakan data mengenai jumlah desa yang memiliki fasilitas sekolah menurut provinsi dan tingkat pendidikan, yang mencerminkan tingkat ketersediaan layanan pendidikan dasar hingga tinggi di berbagai wilayah.

Tahun 2024, ketersediaan fasilitas pendidikan antarprovinsi masih menunjukkan perbedaan atau kesenjangan yang cukup signifikan. Provinsi dengan jumlah desa yang luas dan penduduk tersebar, seperti di wilayah Sumatera, Kalimantan, dan Papua, cenderung memiliki tantangan berbeda dibandingkan wilayah Jawa yang lebih padat dan terpusat. Perbedaan dalam ketersediaan fasilitas SD, SMP, SMA, SMK, hingga Perguruan Tinggi dapat mencerminkan ketimpangan pembangunan pendidikan yang berdampak pada kualitas pendidikan dan pemerataan layanan publik.

Dalam rangka memahami pola pemerataan dan kelompok provinsi dengan karakteristik fasilitas pendidikan yang serupa, diperlukan pendekatan analisis yang mampu mengelompokkan provinsi berdasarkan kemiripan atribut. Analisis cluster hierarki merupakan salah satu metode yang efektif karena tidak hanya membentuk kelompok, tetapi juga memberikan gambaran hierarkis melalui dendrogram sehingga hubungan antarprovinsi dapat terlihat secara lebih jelas. Dengan analisis ini, pemerintah daerah maupun pusat dapat mengidentifikasi kelompok wilayah dengan kebutuhan atau kondisi yang serupa, sehingga perencanaan kebijakan pendidikan menjadi lebih tepat sasaran.

1.2 Cuplikan Data

> library(readxl)
> library(knitr)
> library(kableExtra)
> 
> data <- read_excel("C:/Users/Windows/Downloads/DATA_SEKOLAH.xlsx", sheet = 1)
> kable(data,
+       caption = "Jumlah Desa yang Memiliki Fasilitas Sekolah Menurut Provinsi dan Tingkat Pendidikan, 2024") %>%
+   kable_styling(full_width = FALSE, position = "center")

Jumlah Desa yang Memiliki Fasilitas Sekolah Menurut Provinsi dan Tingkat Pendidikan, 2024
PROVINSI	SD	SMP	SMU	SMK	Perguruan Tinggi
ACEH	3382	1421	735	205	119
SUMATERA UTARA	5003	2319	1147	712	202
SUMATERA BARAT	1256	808	415	180	102
RIAU	1811	1210	631	259	80
JAMBI	1484	810	393	169	42
SUMATERA SELATAN	2996	1410	720	252	99
BENGKULU	1187	488	194	93	27
LAMPUNG	2537	1437	695	405	96
KEP. BANGKA BELITUNG	391	217	85	49	16
KEP. RIAU	408	249	132	62	33
DKI JAKARTA	264	255	219	207	129
JAWA BARAT	5948	4314	2191	2070	477
JAWA TENGAH	8423	3692	1343	1204	314
DI YOGYAKARTA	437	310	148	139	66
JAWA TIMUR	8442	4905	2587	1690	465
BANTEN	1544	1259	702	540	134
BALI	710	313	148	131	41
NUSA TENGGARA BARAT	1157	924	587	287	79
NUSA TENGGARA TIMUR	3331	1699	667	341	60
KALIMANTAN BARAT	2079	1153	437	189	58
KALIMANTAN TENGAH	1545	799	274	120	22
KALIMANTAN SELATAN	1878	777	323	111	56
KALIMANTAN TIMUR	1002	551	243	151	48
KALIMANTAN UTARA	312	158	63	31	13
SULAWESI UTARA	1564	716	250	177	70
SULAWESI TENGAH	1928	966	345	168	42
SULAWESI SELATAN	2972	1789	824	333	155
SULAWESI TENGGARA	1875	911	415	154	40
GORONTALO	658	363	109	55	16
SULAWESI BARAT	631	406	168	112	23
MALUKU	1104	626	274	100	45
MALUKU UTARA	1090	616	294	142	25
PAPUA BARAT	501	147	59	20	16
PAPUA BARAT DAYA	460	164	78	32	18
PAPUA	655	239	106	45	27
PAPUA SELATAN	545	110	32	24	10
PAPUA TENGAH	430	135	50	36	16
PAPUA PEGUNUNGAN	530	169	48	15	8

Data yang digunakan adalah data sekunder yang berasal dari asisten praktikum Analisis Multivariat I . Sumber datanya dari Badan Pusat Statistik (BPS) tentang Jumlah Desa yang Memiliki Fasilitas Sekolah Menurut Provinsi dan Tingkat Pendidikan, 2024. Data dapat diakses melalui link https://shorturl.at/zAevO.

1.3 Latar Belakang Metode

Analisis cluster hierarki merupakan metode pengelompokan yang digunakan untuk mengidentifikasi kelompok objek berdasarkan tingkat kemiripan karakteristiknya. Berbeda dengan metode non-hierarki, teknik ini membangun struktur bertingkat secara bertahap sehingga proses pembentukan cluster dapat diamati dari awal hingga akhir. Pada pendekatan agglomeratif yang paling banyak digunakan, setiap objek dianggap sebagai sebuah cluster tunggal, lalu objek atau kelompok dengan kemiripan tertinggi digabungkan secara berurutan. Proses ini menghasilkan dendrogram yang memberikan gambaran visual mengenai hubungan antar objek serta memungkinkan peneliti menentukan jumlah cluster yang paling optimal.

Metode ini menggunakan ukuran jarak seperti Euclidean, untuk menilai kedekatan antar objek dan memanfaatkan berbagai teknik penggabungan seperti single linkage, complete linkage, dan average linkage. Fleksibilitas dalam pemilihan metode penggabungan dan kemampuan untuk melihat struktur pengelompokan membuat analisis cluster hierarki banyak digunakan dalam penelitian sosial, ekonomi, kesehatan, dan pendidikan. Dengan sifatnya yang tidak memerlukan asumsi distribusi data dan tidak mengharuskan penentuan jumlah cluster sejak awal, metode ini menjadi alat yang efektif untuk mengungkap pola dan kelompok alami dalam data multidimensional.

1.4 Tinjauan Pustaka Metode

1.4.1 Statistika Deskriptif

Statistika deskriptif merupakan metode pengumpulan dan penyajian data untuk memberikan informasi yang lebih mendalam dan mudah dipahami tentang data (Walpole, 1988). Statistika deskriptif menggambarkan karakteristik data melalui ukuran pemusatan data dan ukuran penyebaran data. Ukuran pemusatan data ditunjukkan oleh rata-rata hitung (mean), nilai tengah (median), dan nilai yang paling sering muncul (modus). Ukuran penyebaran data digunakan untuk mengetahui seberapa jauh penyebaran data dari titik pusatnya yang biasanya diwakili oleh jangkauan, variansi, dan simpangan baku.

1.4.2 Analisis Cluster

Analisis cluster merupakan salah satu analisis multivariat (banyak variabel) yang berfungsi untuk mengelompokkan objek-objek atau beberapa variabel berdasarkan karakteristik yang dimiliki. Selain itu, analisis cluster juga bertujuan dalam memaksimalkan kesamaan objek dalam cluster sementara itu juga memaksimalkan perbedaan antar cluster (Hair, 2009).

1.4.3 Jarak Analisis Cluster

Analisis cluster membutuhkan beberapa ukuran untuk mengetahui kemiripan antara objek-objek yang akan diteliti. Ukuran yang biasa digunakan dalam mengukur kemiripan antar data pada analisis cluster adalah ukuran jarak (distance). Secara umum, ada tiga ukuran dalam mengukur kemiripan antar data, yaitu asosiasi, korelasi, dan kedekatan (Sukmawati, 2017).

Salah satu ukuran kedekatan yang digunakan untuk menghitung jarak antar cluster adalah jarak Euclidian. Menurut Johsnon (2002: 670), jarak euclidian merupakan tipe pengukuran jarak dalam analisis cluster yang paling umum digunakan untuk mengukur jarak dari objek data ke pusat cluster. Semakin dekat jarak, maka semakin mirip suatu objek data tersebut. Rumus jarrak Euclidian adalah sebagai berikut. \[ d_{ij} = \sqrt{ \sum_{k=1}^{p} (y_{ik} - y_{jk})^{2} }, \quad i,j = 1,2,\ldots,n \] Keterangan:

-\(d_{ij}\): jarak antara objek ke-i dan ke-j

-\(y_{ik}\): nilai pengamatan objek ke-i variabek ke-k

-\(y_{jk}\): nilai pengamatan objek ke-j variabek ke-k

-\(p\): banyaknya variabel

1.4.4 Analisis Cluster hierarki

Analisis cluster dengan metode hierarki digunakan sebagai pengelompokan objek secara hierarki berdasarkan kemiripan sifatnya yang belum diketahui jumlah cluster yang terbentuk. Metode hierarki digunakan pada data yang memiliki struktur hierarkis atau terdiri dari beberapa sub-kelompok yang saling berkaitan dan umumnya jumlah sampel yang digunakan relatif kecil. Hasil pengelompokan dengan metode hierarki ditampilkan dalah sebuah diagram pohon yang disebut dengan dendogram.

Terdapat dua pendeketan dalam metode hierarki, yaitu agglomeratif (pemusatan) dan disive (penyebaran). Pendekatan agglomerative melibatkan pembentukan cluster baru dengan menggabungkan objek individu berdasarkan kedekatannya satu sama lain. Dengan menentukan jarak antar cluster maka kedekatan dapat ditentukan. Terdapat beberapa metode cluster hierarki dengan pendekatan agglomeratif, yaitu sebagai berikut.

Single Linkage: Single linkage (jarak terdekat) merupakan metode yang dilakukan dengan mengelompokkan data berdasarkan jarak paling dekat (nearest neighbour). Rumus single linkage adalah sebagai berikut. \[ d_{(UV)W} = \min(d_{UW}, d_{VW}) \] Keterangan:

-\(d_{(UV)W}\): jarak minimum antara kelompok (UV) dan kelompok W

-\(d_{UW}\): jarak antara tetangga terdekat dari cluster U dan W

-\(d_{VW}\): jarak antara tetangga terdekat dari cluster V dan W

Complete Linkage: commplete linkage (jarak terjauh) merupakan metode yang dilakukan dengan mengelompokkan data berdasarkan jarak paling jauh. Rumus complete linkage adalah sebagai berikut. \[ d_{(UV)W} = \max(d_{UW}, d_{VW}) \]
Average Linkage: average linkage merupakan metode yang dilakukkan dengan mengelompokkan data berdasarkan jarak rata-rata antar keseluruhan data. Rumus average linkage adalah sebagai berikut. \[ d_{(UV)W} = \frac{\sum_i \sum_k d_{ik}}{N_{(UV)}N_W} \]

Penentuan metode linkage terbaik dilihat dari nilai cophenetic correlation coefficient tertinggi yang mendekati 1 dari semua metode linkage yang digunakan.

1.4.5 Standarisasi dan Uji Asumsi Cluster

Standarisasi dilakukan dengan melakukan transformasi pada data asli sebelum dianalisis lebih lanjut. Transformasi dilakukan terhadap variabel yang relevan ke dalam bentuk z-score. Rumus standarisasi adalah sebagai berikut. \[ z = \frac{x - \bar{x}}{s} \] Keterangan:

-\(x\): nilai data

-\(\bar{x}\): nilai rata-rata

-\(s\): standar deviasi

Analisis cluster memerlukan asumsi sampel yang representatif dan tidak adanya multikolinieritas antarvariabel.

Sampel Representatif: Penggunaan uji Kaiser Mayer Olkin (KMO) dapat memberikan evaluasi apakah sampel representatif atau tidak. Asumsi bahwa sampel mewakili populasi terpenuhi atau sampel representatif jika koefisien KMO antara 0,5 dan 1. Rumus KMO adalah sebagai berikut. \[ KMO = \frac{\sum_{i=1}^{p}\sum_{j=1}^{p} r_{ij}^{\,2}}{\sum_{i=1}^{p}\sum_{j=1}^{p} r_{ij}^{\,2}+\sum_{i=1}^{p}\sum_{j=1}^{p} a_{ij}^{\,2}} \] Keterangan:

-\(p\): banyaknya variabel

-\(r_{ij}\): koefisien korelasi antara variabel i dan j

-\(a_{ij}\): korelasi parsial

Multikolinieritas: Untuk mengetahui adanya multikolinieritas yaitu dengan melihat koefisien korelasi antar variabel independen menggunakan Variance Inflation Factor (VIF). Jika koefisien VIF melebihi 10 maka menunjukkan adanya gejala multikolinieritas sehingga perlu melakukan analisis komponen utama untuk menanganinya.

1.4.6 Indeks Validitas Cluster hierarki

Indeks validitas merupakan metode yang mengevaluasi hasil clustering untuk mendapatkan jumlah cluster optimal suatu data.

Connectivity Index: Connectivity index mengukur nilai kepadatan sebuah hubungan yang menunjukkan posisi data objek di clusterataupun tetangga terdekat. Nilai Indeks berada pada rentang nilai nol hingga tak hingga. Cluster yang baik memiliki nilai indeks connectivity seminimum mungkin (Brock dkk, 2011). Rumus indeks connectivity adalah sebagai berikut. \[ Conn = \frac{1}{L} \sum_{i=1}^{N} \sum_{j=1}^{L} X_{i,nn_{i(j)}} \] Keterangan:

-\(Conn\): Connectivity Index

-\(nn_{i(j)}\): tetangga terdekat objek ke-j dari objek ke-i

-\(X_{i,nn_{i(j)}}\): nilai pada objek ke-i bernilai 0 jika objek i dan j dalam satu cluster dan nilai 1 ketika sebaliknya

-\(L\): parameter jumlah tetangga terdekat

Dunn Index: Dunn Index menghitung validitas suatu pengelompokan menggunakan jarak clusterminum (separasi) dan ukuran clustermaksimum (kohesi). Semakin besar nilai indeks Dunn, maka mengindikasikan banyaknya cluster yang terbentuk semakin optimum (Septianingsih, 2022). Rumus indeks Dunn adalah sebagai berikut. \[ Dunn Index = \frac{\min\, d(C_i, C_j)}{\max\, (\text{diam}(C_k))} \] Keterangan:

-\({\min\, d(C_i, C_j)}\): jarak minimum objek antar cluster

-\({\max\, (\text{diam}(C_k))}\): diameter cluster maksimum

Silhouette Coefficient Index: Silhouette coefficient index digunakan untuk memvalidasi kebaikan atau kualitas sebuah data, clustertunggal (satu cluster dari sejumlah cluster), atau bahkan keseluruhan cluster. Nilai silhouette adalah ukuran dari seberapa mirip objek dengan kelompok sendiri (kohesi) dibandingkan dengan kelompok lain (pemisah). Menurut Handoyo dkk. (2014), tahapan perhitungan silhouette coefficient index adalah sebagai berikut.

Menghitung jarak antar setiap objek pada cluster yang sama dan juga yang berbeda.
Menghitung nilai silhouette coefficient dengan rumus sebagai berikut. \[ S(i) = \frac{b(i) - a(i)}{\max\{a(i), b(i)\}} \] Keterangan:

-\(a(i)\): rata-rata jarak antara objek ke-i dengan objek lain pada cluster yang sama

-\(b(i)\): rata-rata jarak antara objek ke-i dengan objek lain pada cluster yang lain

menghitung nilai silhouette coefficient index dengan rumus sebagai berikut. \[ SI = \frac{1}{n} \sum_{i=1}^{n} S(i) \] Keterangan:

-\(S(i)\): Silhouette coefficient index

-\(n\): jumlah data

1.4.7 Dendogram

Dendogram atau diagram pohon merupakan representasi visual dari tahap-tahap proses analisis cluster yang terbentuk dan nilai koefiensi jarak pada setiap tahap.

1.5 Tujuan Penelitian

Tujuan dari penelitian ini adalah sebagai berikut.

Menentukan metode linkage terbaik (single, complete, dan average).
Mengelompokkan provinsi di Indonesia berdasarkan kemiripan jumlah fasilitas pendidikan pada setiap jenjang.
Mengidentifikasi karakteristik masing-masing cluster yang terbentuk.

BAB II SOURCE CODE

2.1 Library

> library(readxl) 
> library(knitr)
> library(kableExtra)
> library(dplyr)        
> library(psych)        
> library(clValid)      
> library(factoextra)

readxl digunakan untuk membaca file Excel
knitr digunakan untuk menghasilkan tabel dan output R yang rapi di dalam dokumen RMarkdown
kableExtra digunakan untuk untuk membuat tabel agar lebih rapi
dplyr digunakan untuk memilih kolom numerik
psych digunakan untuk uji asumsi uji sampel representatif (KMO)
clValid digunakan untuk indeks validitas cluster
factoextra digunakan untuk eclust dan visualisasi dendrogram

2.2 Impor Data

> data <- read_excel("C:/Users/Windows/Downloads/DATA_SEKOLAH.xlsx", sheet = 1)
> data
> # Pilih hanya kolom numerik
> dataUAP <- data |> dplyr::select_if(is.numeric)
> dataUAP

2.3 Statistika Deskriptif

> # Statistika Deskriptif 
> stat_deskriptif <- summary(dataUAP)
> stat_deskriptif

2.4 Uji Asumsi dan Standarisasi

2.4.1 Uji Sampel Representatif

> # Uji Sampel Representatif
> kmo <- KMO(dataUAP)
> kmo

2.4.2 Uji Non-Multikolinearitas

> # Uji Non-Multikolinearitas
> korelasi <- cor(dataUAP, method = 'pearson')
> korelasi

2.4.3 Standarisasi Data

> # Standarisasi Data
> datastand <- scale(dataUAP)
> datastand

2.5 Menghitung Jarak

> #  Menghitung Jarak Euclidien
> jarak <- dist(datastand, method = "euclidean")
> jarak

2.6 Single Linkage

> # Single Linkage
> dist <- dist(datastand, method = "euclidean")
> hc <- hclust(dist, method = "single")
> d <- cophenetic(hc)
> corsingle <- cor(dist,d)
> corsingle

2.7 Complete Linkage

> # Complete Linkage
> dist <- dist(datastand, method = "euclidean")
> hc <- hclust(dist, method = "complete")
> d <- cophenetic(hc)
> corcomplete <- cor(dist,d)
> corcomplete

2.8 Average Linkage

> # AverageLinkage
> dist <- dist(datastand, method = "euclidean")
> hc <- hclust(dist, method = "average")
> d <- cophenetic(hc)
> coraverage <- cor(dist,d)
> coraverage

2.9 Korelasi Cophenetic Antar Metode

> # Korelasi Cophenetic Antar Metode
> methods <- c("single", "complete", "average")
> cor_values <- sapply(methods, function(m) {
+   hc_all <- hclust(dist, method = m)
+   d_coph <- cophenetic(hc_all)
+   cor(dist, d_coph)
+ })
> cor_values

2.10 Indeks Validitas Cluster

> # Indeks Validitas
> inval <- clValid(datastand,2:6, clMethods = "hierarchical",
+                  validation = "internal", metric = "euclidean", method ="single")
> summary(inval)

2.11 Dendogram

> # Dendogram
> clus_hier <- eclust(datastand, FUNcluster = "hclust", k = 2,
+                     hc_method = "average", graph = TRUE)
> fviz_dend(clus_hier, rect = TRUE, cex = 0.5)

2.12 Jumlah Anggota Tiap cluster

> # Jumlah Anggota Tiap cluster
> table(clus_hier$cluster)

2.13 Karakteristik Tiap Cluster Berdasarkan Rata-Rata Fasilitas Pendidikan di Setiap Provinsi

> # Karakteristik Tiap Cluster
> cluster_data <- data.frame(
+   PROVINSI = data$PROVINSI,
+   dataUAP,
+   cluster = as.factor(clus_hier$cluster)
+ )
> clusterchar <- aggregate(. ~ cluster, data = cluster_data[ , -1], mean)
> clusterchar

2.14 Hasil Pengelompokan Provinsi

> # Hasil Pengelompokan Provinsi
> cluster_table <- data.frame(
+   PROVINSI = data$PROVINSI,
+   Cluster = as.factor(clus_hier$cluster)
+ )
> cluster_table <- cluster_table[order(cluster_table$Cluster), ]
> cluster_table
> split(cluster_data$PROVINSI, cluster_data$cluster)

BAB III HASIL DAN PEMBAHASAN

3.1 Impor Data

> data <- read_excel("C:/Users/Windows/Downloads/DATA_SEKOLAH.xlsx", sheet = 1)
> data
# A tibble: 38 × 6
   PROVINSI                SD   SMP   SMU   SMK `Perguruan Tinggi`
   <chr>                <dbl> <dbl> <dbl> <dbl>              <dbl>
 1 ACEH                  3382  1421   735   205                119
 2 SUMATERA UTARA        5003  2319  1147   712                202
 3 SUMATERA BARAT        1256   808   415   180                102
 4 RIAU                  1811  1210   631   259                 80
 5 JAMBI                 1484   810   393   169                 42
 6 SUMATERA SELATAN      2996  1410   720   252                 99
 7 BENGKULU              1187   488   194    93                 27
 8 LAMPUNG               2537  1437   695   405                 96
 9 KEP. BANGKA BELITUNG   391   217    85    49                 16
10 KEP. RIAU              408   249   132    62                 33
# ℹ 28 more rows
> # Pilih hanya kolom numerik
> dataUAP <- data |> dplyr::select_if(is.numeric)
> dataUAP
# A tibble: 38 × 5
      SD   SMP   SMU   SMK `Perguruan Tinggi`
   <dbl> <dbl> <dbl> <dbl>              <dbl>
 1  3382  1421   735   205                119
 2  5003  2319  1147   712                202
 3  1256   808   415   180                102
 4  1811  1210   631   259                 80
 5  1484   810   393   169                 42
 6  2996  1410   720   252                 99
 7  1187   488   194    93                 27
 8  2537  1437   695   405                 96
 9   391   217    85    49                 16
10   408   249   132    62                 33
# ℹ 28 more rows

3.2 Statistika Deskriptif

> # Statistika Deskriptif
> stat_deskriptif <- summary(dataUAP)
> stat_deskriptif
       SD              SMP              SMU              SMK         
 Min.   : 264.0   Min.   : 110.0   Min.   :  32.0   Min.   :  15.00  
 1st Qu.: 566.5   1st Qu.: 268.8   1st Qu.: 136.0   1st Qu.:  69.75  
 Median :1221.5   Median : 746.5   Median : 284.0   Median : 152.50  
 Mean   :1907.1   Mean   :1022.0   Mean   : 477.1   Mean   : 289.74  
 3rd Qu.:2041.2   3rd Qu.:1246.8   3rd Qu.: 658.0   3rd Qu.: 257.25  
 Max.   :8442.0   Max.   :4905.0   Max.   :2587.0   Max.   :2070.00  
 Perguruan Tinggi
 Min.   :  8.00  
 1st Qu.: 23.50  
 Median : 46.50  
 Mean   : 86.55  
 3rd Qu.: 98.25  
 Max.   :477.00

Berdasarkan hasil analisis statistika deskriptif tersebut:

SD: Jumlah desa dengan fasilitas SD berkisar antara 264 hingga 8442 dengan rata-rata sebesar 1907 desa per provinsi. Median 1221.5 menunjukkan bahwa sebagian besar provinsi memiliki jumlah fasilitas SD yang lebih rendah dibanding rata-rata karena terdapat provinsi dengan jumlah sangat tinggi yang menaikkan nilai mean.
SMP: Jumlah desa dengan fasilitas SMP berkisar antara 110 hingga 4905 dengan rata-rata sebesar 1022 desa per provinsi. Median 746.5 menunjukkan sebagian besar provinsi masih memiliki distribusi SMP yang lebih rendah dibanding rata-rata karena adanya beberapa provinsi dengan jumlah sangat tinggi yang menaikkan nilai mean.
SMU: Jumlah desa dengan fasilitas SMU berkisar antara 32 hingga 2587 dengan rata-rata sebesar 477.1 desa per provinsi. Median 284 menunjukkan bahwa sebagian besar provinsi memiliki jumlah SMU yang lebih rendah daripada rata-rata karena adanya provinsi dengan jumlah SMU sangat tinggi yang mendorong mean menjadi lebih besar.
SMK: Jumlah desa dengan fasilitas SMK berkisar antara 15 hingga 2070 dengan rata-rata sebesar 289.74 desa per provinsi. Median 152.5 menunjukkan bahwa sebagian besar provinsi memiliki fasilitas SMK lebih sedikit dibandingkan rata-rata, mengindikasikan distribusi yang condong ke nilai rendah dengan beberapa provinsi yang memiliki SMK sangat banyak.
Perguruan Tinggi: Jumlah desa yang memiliki fasilitas Perguruan Tinggi berkisar antara 8 hingga 477 dengan rata-rata sebesar 86.55 desa per provinsi. Median 46.5 menandakan sebagian besar provinsi memiliki jumlah fasilitas Perguruan Tinggi di bawah rata-rata karena jumlahnya sangat dipengaruhi oleh beberapa provinsi dengan fasilitas yang jauh lebih banyak.

3.3 Uji Asumsi dan Standarisasi

3.3.1 Uji Sampel Representatif

> # Uji Sampel Representatif
> kmo <- KMO(dataUAP)
> kmo
Kaiser-Meyer-Olkin factor adequacy
Call: KMO(r = dataUAP)
Overall MSA =  0.7
MSA for each item = 
              SD              SMP              SMU              SMK 
            0.66             0.64             0.70             0.71 
Perguruan Tinggi 
            0.78

Berdasarkan hasil uji KMO tersebut, koefisien KMO yang diperoleh yaitu sebesar 0.7 yang menunjukkan bahwa koefisien KMO yang diperoleh melebihi 0.5 sehingga sampel mewakili populasi atau sampel representatif. Dengan demikian, sampel dapat digunakan untuk analisis lebih lanjut.

3.3.2 Uji Non-Multikolinearitas

> # Uji Non-Multikolinearitas
> korelasi <- cor(dataUAP, method = 'pearson')
> korelasi
                        SD       SMP       SMU       SMK Perguruan Tinggi
SD               1.0000000 0.9666192 0.9197459 0.8697731        0.8823789
SMP              0.9666192 1.0000000 0.9832400 0.9496437        0.9493986
SMU              0.9197459 0.9832400 1.0000000 0.9531978        0.9613564
SMK              0.8697731 0.9496437 0.9531978 1.0000000        0.9755115
Perguruan Tinggi 0.8823789 0.9493986 0.9613564 0.9755115        1.0000000

Berdasarkan output tersebut, hasil korelasi menunjukkan bahwa seluruh variabel fasilitas pendidikan memiliki hubungan korelasi yang sangat kuat satu sama lain. Variabel SD, SMP, SMU, dan SMK saling berkorelasi tinggi, menandakan bahwa provinsi dengan banyak fasilitas pada satu jenjang pendidikan cenderung memiliki banyak fasilitas pada jenjang lainnya.

3.3.3 Standarisasi Data

> # Standarisasi Data
> datastand <- scale(dataUAP)
> datastand
               SD         SMP         SMU          SMK Perguruan Tinggi
 [1,]  0.73159378  0.35641534  0.46541097 -0.191807844       0.29432353
 [2,]  1.53566033  1.15852027  1.20900461  0.955822568       1.04719978
 [3,] -0.32296851 -0.19112400 -0.11213749 -0.248397115       0.14011996
 [4,] -0.04767121  0.16794748  0.27770772 -0.069575019      -0.05943760
 [5,] -0.20987340 -0.18933757 -0.15184395 -0.273296394      -0.40412793
 [6,]  0.54012574  0.34659000  0.43833838 -0.085420015       0.11290757
 [7,] -0.35719467 -0.47695203 -0.51100690 -0.445327778      -0.54018990
 [8,]  0.31244743  0.37070674  0.39321741  0.260906322       0.08569517
 [9,] -0.75203549 -0.71901265 -0.70773434 -0.544924894      -0.63996868
[10,] -0.74360296 -0.69042985 -0.62290691 -0.515498474      -0.48576511
[11,] -0.81503145 -0.68507057 -0.46588593 -0.187280703       0.38503151
[12,]  2.00440980  2.94047945  3.09325647  4.029751760       3.54166929
[13,]  3.23208697  2.38490120  1.56275304  2.069499418       2.06312918
[14,] -0.72921805 -0.63594388 -0.59402949 -0.341203519      -0.18642877
[15,]  3.24151156  3.46836811  3.80797269  3.169594843       3.43281971
[16,] -0.18011153  0.21171490  0.40585128  0.566488385       0.43038550
[17,] -0.59380154 -0.63326424 -0.59402949 -0.359312086      -0.41319873
[18,] -0.37207560 -0.08751133  0.19829480 -0.006195036      -0.06850840
[19,]  0.70629619  0.60472845  0.34268192  0.116037789      -0.24085356
[20,]  0.08526515  0.11703436 -0.07243104 -0.228024978      -0.25899516
[21,] -0.17961550 -0.19916291 -0.36661978 -0.384211365      -0.58554389
[22,] -0.01443712 -0.21881359 -0.27818268 -0.404583503      -0.27713676
[23,] -0.44896043 -0.42067964 -0.42256979 -0.314040669      -0.34970314
[24,] -0.79122195 -0.77171220 -0.74744080 -0.585669169      -0.66718108
[25,] -0.17019091 -0.27329956 -0.40993592 -0.255187828      -0.15014558
[26,]  0.01036444 -0.04999640 -0.23847622 -0.275559965      -0.40412793
[27,]  0.52822100  0.68511759  0.62604163  0.097929222       0.62087227
[28,] -0.01592521 -0.09912310 -0.11213749 -0.307249957      -0.42226953
[29,] -0.61959516 -0.58860361 -0.66441821 -0.531343469      -0.63996868
[30,] -0.63298800 -0.55019547 -0.55793271 -0.402319932      -0.57647310
[31,] -0.39836525 -0.35368869 -0.36661978 -0.429482782      -0.37691554
[32,] -0.40530969 -0.36262082 -0.33052300 -0.334412807      -0.55833150
[33,] -0.69747206 -0.78153754 -0.75466016 -0.610568449      -0.63996868
[34,] -0.71780934 -0.76635292 -0.72036822 -0.583405599      -0.62182709
[35,] -0.62108325 -0.69936198 -0.66983273 -0.553979178      -0.54018990
[36,] -0.67564668 -0.81458640 -0.80339081 -0.601514165      -0.69439347
[37,] -0.73269027 -0.79225609 -0.77090371 -0.574351315      -0.63996868
[38,] -0.68308715 -0.76188686 -0.77451338 -0.621886303      -0.71253507
attr(,"scaled:center")
              SD              SMP              SMU              SMK 
      1907.10526       1021.97368        477.13158        289.73684 
Perguruan Tinggi 
        86.55263 
attr(,"scaled:scale")
              SD              SMP              SMU              SMK 
       2016.0023        1119.5543         554.0661         441.7799 
Perguruan Tinggi 
        110.2439

Standarisasi data dengan fungsi sclae() mengubah seluruh variabel menjadi skala z-score, yaitu memiliki rata-rata 0 dan simpangan baku 1. Nilai z positif menunjukkan bahwa suatu provinsi memiliki jumlah fasilitas pendidikan di atas rata-rata nasional, sedangkan nilai z negatif menunjukkan di bawah rata-rata nasional. Misalnya, provinsi dengan nilai z sangat tinggi seperti pada baris 12 dan 15 memiliki fasilitas sekolah jauh lebih banyak dibanding provinsi lain, sedangkan provinsi dengan z-score negatif besar (misal baris 9, 24, 33 sampai 38) menunjukkan jumlah fasilitas sekolah yang jauh lebih rendah dari rata-rata. Hal ini digunakan untuk memastikan bahwa semua variabel berada pada skala yang sama sehingga tidak ada variabel yang mendominasi perhitungan jarak dalam analisis cluster hierarki.

3.4 Menghitung Jarak

> #  Menghitung Jarak Euclidien
> jarak <- dist(datastand, method = "euclidean")
> jarak
            1          2          3          4          5          6          7
2  1.93046757                                                                  
3  1.33133176 3.04867121                                                       
4  0.90448569 2.57518419 0.65459971                                            
5  1.43516033 3.21443667 0.55784948 0.70625110                                 
6  0.28586639 2.04971568 1.16807268 0.65815996 1.22501245                      
7  1.89579491 3.70123460 0.86230453 1.22722606 0.53059525 1.71485620           
8  0.65542027 2.04690215 1.11226923 0.56073227 1.18695400 0.41849418 1.69560204
9  2.39406865 4.18704557 1.23043388 1.67836147 1.00643552 2.21283523 0.52256071
10 2.27372821 4.06008922 1.07247393 1.55333262 0.90729681 2.09594551 0.46399541
11 2.08621783 3.67082950 0.82156192 1.44250493 1.15791241 1.95008287 1.08516667
12 6.60074540 4.75572585 7.44118781 7.04256598 7.70162453 6.67922345 8.18135926
13 4.45124305 2.60372813 5.58123574 5.13847917 5.74366514 4.59485780 6.20284233
14 2.12004810 3.84770370 0.84283475 1.40020783 0.84658633 1.94869633 0.55367983
15 6.95024046 5.05884677 7.99932529 7.54071302 8.21867897 7.07208297 8.71907639
16 1.20383478 2.23995753 1.09512197 0.82485158 1.36908874 1.03138996 1.81990057
17 2.09456390 3.85465621 0.90527461 1.38174485 0.73991941 1.91402548 0.33291820
18 1.28553769 2.89549099 0.46011188 0.42532708 0.58588300 1.05705465 1.03456049
19 0.67715969 2.02715691 1.47566299 0.91149875 1.37575544 0.51877781 1.85325757
20 1.03527350 2.81745570 0.65030824 0.45584096 0.45868285 0.82409172 0.93125201
21 1.62555545 3.42485180 0.79398330 0.97114424 0.30389903 1.42861544 0.36788721
22 1.34618805 3.18058935 0.56747396 0.78697291 0.29730240 1.18094179 0.55604170
23 1.79326683 3.55788102 0.63966688 1.06860706 0.43427686 1.60450401 0.27005587
24 2.47835969 4.27588069 1.31356067 1.76704918 1.09482220 2.29955350 0.60579427
25 1.47565527 3.23746614 0.45064168 0.85161250 0.37426025 1.30629253 0.52435470
26 1.29446835 3.08300112 0.66628291 0.69177652 0.27464694 1.09520990 0.66256905
27 0.60480535 1.58007155 1.54541128 1.10060549 1.76153200 0.66454513 2.25176366
28 1.27541939 3.08045341 0.64998873 0.64222284 0.22093691 1.07074720 0.67177902
29 2.23236931 4.03304865 1.11336801 1.52882774 0.84393531 2.04970294 0.34958494
30 2.12928650 3.90200938 0.98029364 1.39092230 0.72145852 1.93614240 0.29460947
31 1.72637817 3.52944733 0.63007215 1.02008547 0.36579206 1.54188816 0.25425596
32 1.78617753 3.56283849 0.76099711 1.04803950 0.35729902 1.58130809 0.24615517
33 2.42363402 4.23164296 1.28116462 1.73759506 1.05887389 2.25170360 0.55243844
34 2.40002729 4.20245356 1.24479966 1.70248692 1.02845812 2.22518949 0.53231390
35 2.24961328 4.05371514 1.10200006 1.56353130 0.89153042 2.07763064 0.39513813
36 2.47120403 4.27682227 1.34611394 1.79293845 1.10651487 2.29922003 0.59082141
37 2.45179307 4.24958225 1.29537217 1.75574582 1.07997135 2.27709770 0.57841406
38 2.44705253 4.25804880 1.32691834 1.76269641 1.07521675 2.27269263 0.56365344
            8          9         10         11         12         13         14
2                                                                              
3                                                                              
4                                                                              
5                                                                              
6                                                                              
7                                                                              
8                                                                              
9  2.16994447                                                                  
10 2.05015443 0.18091001                                                       
11 1.84781134 1.11451603 0.94646712                                            
12 6.55016277 8.59367016 8.45130015 7.84277255                                 
13 4.59677520 6.69362223 6.57418871 6.15047466 3.19170319                      
14 1.87340775 0.51725303 0.35212289 0.61356111 8.17701461 6.35146857           
15 7.03556592 9.17929452 9.04127491 8.51645982 1.75260510 3.04979716 8.79854297
16 0.69299652 2.19415617 2.04933127 1.59295262 6.41207580 4.75701094 1.79559722
17 1.85404082 0.36221029 0.23707034 0.85721273 8.24762307 6.35844177 0.26475903
18 0.90091747 1.40742636 1.26862474 1.11036635 7.24703136 5.46048936 1.08730984
19 0.58314476 2.36189768 2.27394461 2.26175496 6.65816252 4.49016219 2.16550893
20 0.83105667 1.43151096 1.33270781 1.42307536 7.36547681 5.32826561 1.23308529
21 1.41808626 0.86200837 0.80765108 1.27691494 7.94449642 5.92247805 0.84005852
22 1.21642489 1.06306529 0.96372581 1.17442185 7.72464148 5.68385649 0.89270019
23 1.54650536 0.63224798 0.50873614 0.87274850 7.98052393 6.07173153 0.42623678
24 2.26004889 0.09104962 0.24943688 1.16327620 8.68121022 6.78179421 0.58025751
25 1.27071365 0.97455704 0.85355598 0.93783314 7.70193644 5.73025163 0.69758717
26 1.09316278 1.17354928 1.09116631 1.32923986 7.62395108 5.58026078 1.03365219
27 0.71595781 2.71892958 2.58272709 2.23852944 6.11091018 4.12853217 2.37897088
28 1.07925064 1.17674947 1.08969863 1.33160458 7.62350854 5.59922874 1.04209253
29 2.01539590 0.19133139 0.22693503 1.12067876 8.47051557 6.53518169 0.51094471
30 1.87748009 0.29913198 0.23908224 1.01515354 8.31109001 6.41313466 0.41687622
31 1.51591615 0.67633366 0.56348354 0.96566225 7.98972434 6.04989816 0.53378383
32 1.53163965 0.66370346 0.58774769 1.09624382 8.01844274 6.08398521 0.62242714
33 2.22514797 0.11574816 0.24618007 1.15599073 8.65902454 6.73258303 0.57119475
34 2.19268260 0.07336230 0.19761722 1.11870433 8.62036770 6.70757939 0.53040710
35 2.04996895 0.17032015 0.14743037 1.03436787 8.48378827 6.55773967 0.43804285
36 2.27275789 0.17402343 0.32176363 1.21936855 8.70976085 6.77081862 0.63592843
37 2.24147645 0.10293260 0.24419893 1.14531817 8.66259929 6.74955003 0.56194875
38 2.24809851 0.14913232 0.30740165 1.22967287 8.69630905 6.75585280 0.63728705
           15         16         17         18         19         20         21
2                                                                              
3                                                                              
4                                                                              
5                                                                              
6                                                                              
7                                                                              
8                                                                              
9                                                                              
10                                                                             
11                                                                             
12                                                                             
13                                                                             
14                                                                             
15                                                                             
16 7.04829761                                                                  
17 8.84057010 1.85839490                                                       
18 7.81517786 0.86390257 1.10376152                                            
19 7.03250135 1.26397638 2.08709574 1.30674136                                 
20 7.83735796 1.18938654 1.15635615 0.64014507 0.95632220                      
21 8.44741979 1.64361642 0.66485491 0.88252904 1.51764633 0.62266986           
22 8.21168096 1.45748880 0.79230932 0.75790205 1.36217247 0.44336233 0.36196845
23 8.54897427 1.59447602 0.31882719 0.82232880 1.78002964 0.84424943 0.43045504
24 9.26849647 2.28096183 0.44432223 1.49413171 2.44942132 1.51929700 0.94559487
25 8.24604877 1.38311761 0.65034591 0.71685518 1.50054418 0.58661227 0.46225547
26 8.11074646 1.38758420 0.91582353 0.72362602 1.19613450 0.29052279 0.34565977
27 6.52497452 1.01496885 2.40083552 1.44102197 0.92809765 1.37375592 1.98903511
28 8.10279670 1.37197998 0.92426211 0.66266669 1.19831370 0.30244876 0.36625850
29 9.03625999 2.08087127 0.29771440 1.28801432 2.18510305 1.25791285 0.67715580
30 8.89127291 1.91489892 0.19556884 1.12648791 2.07845455 1.15237411 0.60479858
31 8.52944817 1.61484395 0.41750856 0.81544927 1.71989964 0.77234451 0.34249812
32 8.56214258 1.64681726 0.44709753 0.83910165 1.71123788 0.79891479 0.28667009
33 9.23429197 2.26541828 0.41603982 1.47902416 2.40493406 1.47547480 0.90117176
34 9.20000698 2.22340133 0.37788318 1.43653509 2.38167549 1.45019540 0.88175387
35 9.05484196 2.09262452 0.25471821 1.30864905 2.24194088 1.30676564 0.75359742
36 9.28480765 2.32173934 0.47025615 1.53957937 2.44095938 1.51995793 0.93521691
37 9.24759676 2.26830920 0.41655667 1.48842947 2.42863146 1.49960229 0.92747613
38 9.26585162 2.30491810 0.46436796 1.51384028 2.41105044 1.48882927 0.89951947
           22         23         24         25         26         27         28
2                                                                              
3                                                                              
4                                                                              
5                                                                              
6                                                                              
7                                                                              
8                                                                              
9                                                                              
10                                                                             
11                                                                             
12                                                                             
13                                                                             
14                                                                             
15                                                                             
16                                                                             
17                                                                             
18                                                                             
19                                                                             
20                                                                             
21                                                                             
22                                                                             
23 0.51368467                                                                  
24 1.14639493 0.72144456                                                       
25 0.28815397 0.37799448 1.06044702                                            
26 0.25192220 0.62186708 1.26008891 0.42045811                                 
27 1.72862091 2.09499231 2.80644346 1.78850560 1.65712965                      
28 0.26914006 0.62657667 1.26276298 0.46859487 0.14282655 1.64570712           
29 0.89434552 0.49727248 0.27123616 0.82603310 0.99469567 2.56726279 1.00331122
30 0.81258021 0.35802438 0.38969968 0.71844175 0.90106874 2.44132854 0.90320717
31 0.42893940 0.15570953 0.76338257 0.37710155 0.54785262 2.04860957 0.54113133
32 0.51009392 0.24018668 0.75171967 0.49240012 0.55338415 2.11227185 0.53665094
33 1.08825666 0.68879842 0.10147999 1.01063748 1.21263446 2.76612129 1.21754917
34 1.06810515 0.65350024 0.09062652 0.98466549 1.19070797 2.73508620 1.19325887
35 0.91861422 0.51213745 0.23944886 0.83294075 1.05000019 2.58650811 1.05465988
36 1.13175606 0.74365737 0.13898856 1.05803187 1.25093479 2.82149456 1.25920379
37 1.11712400 0.70137288 0.07257496 1.02849947 1.23752006 2.78669473 1.24374213
38 1.10686847 0.72216198 0.12606055 1.04184766 1.22067845 2.79620335 1.22733565
           29         30         31         32         33         34         35
2                                                                              
3                                                                              
4                                                                              
5                                                                              
6                                                                              
7                                                                              
8                                                                              
9                                                                              
10                                                                             
11                                                                             
12                                                                             
13                                                                             
14                                                                             
15                                                                             
16                                                                             
17                                                                             
18                                                                             
19                                                                             
20                                                                             
21                                                                             
22                                                                             
23                                                                             
24                                                                             
25                                                                             
26                                                                             
27                                                                             
28                                                                             
29                                                                             
30 0.18350062                                                                  
31 0.52190435 0.41330911                                                       
32 0.50390357 0.37904793 0.20828115                                            
33 0.24022597 0.37918092 0.72462668 0.72364975                                 
34 0.21774028 0.33934201 0.69364843 0.69185550 0.05373130                      
35 0.15088780 0.24337416 0.55062627 0.56887822 0.18149908 0.15468711           
36 0.28532326 0.43076161 0.78132430 0.76864487 0.08359000 0.12880493 0.24521402
37 0.25971845 0.38407944 0.74682255 0.74157588 0.05413634 0.06210756 0.20413626
38 0.24421947 0.40118899 0.75081894 0.73492918 0.07988241 0.11775389 0.23027401
           36         37
2                       
3                       
4                       
5                       
6                       
7                       
8                       
9                       
10                      
11                      
12                      
13                      
14                      
15                      
16                      
17                      
18                      
19                      
20                      
21                      
22                      
23                      
24                      
25                      
26                      
27                      
28                      
29                      
30                      
31                      
32                      
33                      
34                      
35                      
36                      
37 0.09223830           
38 0.06641272 0.10450476

3.5 Single Linkage

> # Single Linkage
> dist <- dist(datastand, method = "euclidean")
> hc <- hclust(dist, method = "single")
> d <- cophenetic(hc)
> corsingle <- cor(dist,d)
> corsingle
[1] 0.9588323

Nilai korelasi cophenetic sebesar 0.9588323 menunjukkan bahwa metode single linkage mampu merepresentasikan struktur jarak asli antar objek dengan sangat baik. Artinya, dendrogram yang dihasilkan dari proses clustering memiliki tingkat kesesuaian tinggi terhadap jarak Euclidean awal, sehingga hasil pengelompokan dianggap stabil dan reliabel untuk langkah analisis selanjutnya.

3.6 Complete Linkage

> # Complete Linkage
> dist <- dist(datastand, method = "euclidean")
> hc <- hclust(dist, method = "complete")
> d <- cophenetic(hc)
> corcomplete <- cor(dist,d)
> corcomplete
[1] 0.9066525

Nilai korelasi cophenetic 0.9066525 menunjukkan bahwa complete linkage juga memiliki kemampuan representasi jarak yang baik, meskipun tidak sekuat single linkage. Dendrogramnya tetap cukup akurat menggambarkan jarak antar objek, tetapi sedikit lebih terdistorsi dibanding single linkage.

3.7 Average Linkage

> # AverageLinkage
> dist <- dist(datastand, method = "euclidean")
> hc <- hclust(dist, method = "average")
> d <- cophenetic(hc)
> coraverage <- cor(dist,d)
> coraverage
[1] 0.9095013

Nilai korelasi cophenetic 0.9095013 menunjukkan bahwa metode average linkage memberikan kualitas representasi jarak yang baik dan sedikit lebih tinggi dibanding complete linkage. Ini menunjukkan bahwa average linkage menghasilkan dendrogram yang cukup stabil dan konsisten dengan struktur jarak asli.

3.8 Korelasi Cophenetic Antar Metode

> # Korelasi Cophenetic Antar Metode
> methods <- c("single", "complete", "average")
> cor_values <- sapply(methods, function(m) {
+   hc_all <- hclust(dist, method = m)
+   d_coph <- cophenetic(hc_all)
+   cor(dist, d_coph)
+ })
> cor_values
   single  complete   average 
0.9588323 0.9066525 0.9095013

Berdasarkan nilai korelasi cophenetic, metode single linkage merupakan yang terbaik karena memiliki nilai korelasi tertinggi (0.9588323) mendekati 1. Hal ini menunjukkan bahwa struktur cluster yang dihasilkan paling mampu merepresentasikan jarak asli antar objek. Nilai korelasi yang lebih tinggi mengindikasikan bahwa dendrogram lebih akurat dalam menggambarkan hubungan kedekatan data, sehingga metode single linkage memberikan kualitas klasterisasi yang paling baik dibandingkan complete linkage (0.9066525) dan average linkage (0.9095013).

3.9 Indeks Validitas Cluster

> # Indeks Validitas
> inval <- clValid(datastand,2:6, clMethods = "hierarchical",
+                  validation = "internal", metric = "euclidean", method ="single")
> summary(inval)

Clustering Methods:
 hierarchical 

Cluster sizes:
 2 3 4 5 6 

Validation Measures:
                                 2       3       4       5       6
                                                                  
hierarchical Connectivity   4.6913  6.9119  8.9119 11.8159 15.6417
             Dunn           0.4497  0.6088  0.4098  0.5600  0.2456
             Silhouette     0.7877  0.7303  0.7073  0.5663  0.2644

Optimal Scores:

             Score  Method       Clusters
Connectivity 4.6913 hierarchical 2       
Dunn         0.6088 hierarchical 3       
Silhouette   0.7877 hierarchical 2

Berdasarkan hasil analisis uji validitias cluster tersebut didapatkan bahwa: - Connectivity Index (nilai = 4.6913, terbaik = 2 cluster): jika nilai connectivity yang diperoleh semakin kecil, maka semakin baik. Nilai terbaik muncul saat 2 cluster, artinya data dalam tiap cluster paling dekat satu sama lain, sehingga susunan clusternya lebih teratur. - Dunn Index (nilai = 0.6088, terbaik = 3 cluster): semakin besar nilai Dunn, maka akan semakin baik. Nilai terbaik ada pada 3 cluster, artinya pada jumlah cluster ini jarak antar cluster cukup jauh dan ukuran masing-masing cluster tidak terlalu besar. Ini menunjukkan cluster lebih terpisah dengan jelas. - Silhouette (nilai = 0.7877, terbaik = 2 cluster): jika nilai Silhouette mendekati 1, artinya cluster sangat baik. Nilai tertinggi pada 2 cluster (0.7877) menunjukkan bahwa objek berada dekat dengan clusternya sendiri dan jauh dari cluster lain. Silhouette (indikator paling kuat) memilih 2. Connectivity juga mendukung 2 (nilai lebih kecil = lebih baik). Hanya Dunn Index yang memilih 3 sehingga jumlah cluster yang sebaiknya dipakai adalah 2 cluster.

3.10 Dendogram

> # Dendogram
> clus_hier <- eclust(datastand, FUNcluster = "hclust", k = 2,
+                     hc_method = "average", graph = TRUE)
> fviz_dend(clus_hier, rect = TRUE, cex = 0.5)

Dendogram tersebut menunjukkan pembagian provinsi menjadi 2 cluster utama, hal ini sudah sesuai dengan hasil indeks validitas. Dendogram menunjukkan dua kelompok/cluster provinsi, yaitu provinsi dengan ketersediaan fasilitas sekolah yang tinggi dan seragam, serta provinsi lainnya dengan ketersediaan fasilitas sekolah yang lebih rendah atau bervariasi.

3.11 Jumlah Anggota Tiap cluster

> # Jumlah Anggota Tiap cluster
> table(clus_hier$cluster)

 1  2 
34  4

Cluster 1 terdiri dari 34 anggota (provinsi) dan cluster 2 terdiri dari 4 anggota (provinsi).

3.12 Karakteristik Tiap Cluster Berdasarkan Rata-Rata Fasilitas Pendidikan di Setiap Provinsi

> # Karakteristik Tiap Cluster
> cluster_data <- data.frame(
+   PROVINSI = data$PROVINSI,
+   dataUAP,
+   cluster = as.factor(clus_hier$cluster)
+ )
> clusterchar <- aggregate(. ~ cluster, data = cluster_data[ , -1], mean)
> clusterchar
  cluster       SD       SMP    SMU       SMK Perguruan.Tinggi
1       1 1313.353  694.2647  319.5  156.8824         53.85294
2       2 6954.000 3807.5000 1817.0 1419.0000        364.50000

Berdasarkan hasil analisisi karakteristik tiap cluster berdasarkan rata-rata fasilitas pendidikan di setiap provinsi tersebut menunjukkah bahwa Cluster 1 memiliki jumlah desa dengan fasilitas sekolah yang relatif lebih sedikit pada semua tingkat pendidikan (SD, SMP, SMU, SMK), sehingga mewakili provinsi dengan ketersediaan fasilitas pendidikan yang lebih rendah. Sedangkan Cluster 2 memiliki nilai yang jauh lebih tinggi untuk semua jenjang, sehingga menggambarkan provinsi dengan ketersediaan fasilitas sekolah yang jauh lebih baik dan lebih lengkap di seluruh tingkat pendidikan.

3.13 Hasil Pengelompokan Provinsi

> # Hasil Pengelompokan Provinsi
> cluster_table <- data.frame(
+   PROVINSI = data$PROVINSI,
+   Cluster = as.factor(clus_hier$cluster)
+ )
> cluster_table <- cluster_table[order(cluster_table$Cluster), ]
> cluster_table
               PROVINSI Cluster
1                  ACEH       1
3        SUMATERA BARAT       1
4                  RIAU       1
5                 JAMBI       1
6      SUMATERA SELATAN       1
7              BENGKULU       1
8               LAMPUNG       1
9  KEP. BANGKA BELITUNG       1
10            KEP. RIAU       1
11          DKI JAKARTA       1
14        DI YOGYAKARTA       1
16               BANTEN       1
17                 BALI       1
18  NUSA TENGGARA BARAT       1
19  NUSA TENGGARA TIMUR       1
20     KALIMANTAN BARAT       1
21    KALIMANTAN TENGAH       1
22   KALIMANTAN SELATAN       1
23     KALIMANTAN TIMUR       1
24     KALIMANTAN UTARA       1
25       SULAWESI UTARA       1
26      SULAWESI TENGAH       1
27     SULAWESI SELATAN       1
28    SULAWESI TENGGARA       1
29            GORONTALO       1
30       SULAWESI BARAT       1
31               MALUKU       1
32         MALUKU UTARA       1
33          PAPUA BARAT       1
34     PAPUA BARAT DAYA       1
35                PAPUA       1
36        PAPUA SELATAN       1
37         PAPUA TENGAH       1
38     PAPUA PEGUNUNGAN       1
2        SUMATERA UTARA       2
12           JAWA BARAT       2
13          JAWA TENGAH       2
15           JAWA TIMUR       2
> split(cluster_data$PROVINSI, cluster_data$cluster)
$`1`
 [1] "ACEH"                 "SUMATERA BARAT"       "RIAU"                
 [4] "JAMBI"                "SUMATERA SELATAN"     "BENGKULU"            
 [7] "LAMPUNG"              "KEP. BANGKA BELITUNG" "KEP. RIAU"           
[10] "DKI JAKARTA"          "DI YOGYAKARTA"        "BANTEN"              
[13] "BALI"                 "NUSA TENGGARA BARAT"  "NUSA TENGGARA TIMUR" 
[16] "KALIMANTAN BARAT"     "KALIMANTAN TENGAH"    "KALIMANTAN SELATAN"  
[19] "KALIMANTAN TIMUR"     "KALIMANTAN UTARA"     "SULAWESI UTARA"      
[22] "SULAWESI TENGAH"      "SULAWESI SELATAN"     "SULAWESI TENGGARA"   
[25] "GORONTALO"            "SULAWESI BARAT"       "MALUKU"              
[28] "MALUKU UTARA"         "PAPUA BARAT"          "PAPUA BARAT DAYA"    
[31] "PAPUA"                "PAPUA SELATAN"        "PAPUA TENGAH"        
[34] "PAPUA PEGUNUNGAN"    

$`2`
[1] "SUMATERA UTARA" "JAWA BARAT"     "JAWA TENGAH"    "JAWA TIMUR"

Cluster 1 berisi sebagian besar provinsi di Indonesia yang memiliki jumlah desa dengan fasilitas sekolah relatif lebih sedikit pada semua jenjang (SD, SMP, SMU, SMK), sehingga menggambarkan provinsi dengan ketersediaan fasilitas pendidikan yang lebih rendah atau tidak merata. Sementara itu, cluster 2 hanya berisi empat provinsi yang terdiri dari Provinsi Sumatera Utara, Jawa Barat, Jawa Tengah, dan Jawa Timur yang memiliki jumlah desa dengan fasilitas sekolah paling tinggi dan paling lengkap, sehingga kelompok ini mencerminkan provinsi dengan ketersediaan fasilitas sekolah yang jauh lebih baik dibanding provinsi lainnya.

BAB IV PENUTUP

4.1 Kesimpulan

Berdasarkan hasil analisis yang sudah dilakukan, kesimpulannya adalah sebagai berikut.

Metode analisis cluster hirarki yang terbaik adalah Single linkage, karena menghasilkan nilai korelasi cophenetic yang mendekati 1 sehingga single linkage memberikan hasil klasterisasi yang paling sesuai dibanding metode complete linkage dan average linkage.
Terdapat 2 kelompok/cluster provinsi yang terbentuk. Cluster 1 terdiri dari 34 anggota (provinsi) dan Clusuter 2 terdiri dari 4 anggota (provinsi).
Karakteristik dari masing-masing cluster yaitu, Cluster 1 terdiri dari provinsi yang memiliki jumlah desa dengan fasilitas sekolah relatif rendah (terbatas) pada semua jenjang. Cluster 2 terdiri dari provinsi yang memiliki jumlah fasilitas sekolah paling tinggi sehingga menggambarkan provinsi dengan ketersediaan pendidikan yang jauh lebih baik dibandingkan provinsi lainnya.

4.2 Saran

Saran yang dapat diberikan yaitu, pemerintah dapat menyusun kebijakan nasional yang mendorong pemerataan fasilitas pendidikan di seluruh provinsi, dengan fokus utama pada wilayah-wilayah dalam Cluster 1.

4.3 Daftar Pustaka

Brock, G., Pihur, V., Datta, S., & others. 2011. Clvalid an R Package for Cluster Validation. Journal of Statistical Software.
Hair, Joseph F., Black, W. C., Babin, B. J., dkk. 2009. Multivariat Data Analysis (7th ed). Upper Saddle River: Prentice-Hall Internasional, Inc.
Handoyo, R., Mangkudjaja, R., & Nasution, S. M. 2014. Perbandingan Metode Clustering menggunakan Metode Single Linkage dan k-Means pada Pengelompokan Dokumen. -, Volume 15, 73-82.
Johnson, A. R dan Dean W. Wichern. 2002. Applied Multivariate Statistical Analysis. Edisi ke-5. New York: Pretntice-Hall, Inc.
Septianingsih, A. (2022). Pemetaan Kabupaten Kota di Provinsi Jawa Timur berdasarkan Tingkat Kasus Penyakit Menggunakan Pendekatan Agglomeratif Hierarchial Clustering. Jurnal Lebesgue : Jurnal ilmu Pendidikaan Matematika, dan Sains, 367-386.
Sukmawati. 2017. Analisis Cluster dengan Metode Hierarki untuk Pengelompokkan Kabupateb/Kota di Provinsi Sulawesi Selatan Berdasarkan Indikator Makro Ekonomi. Makassar: UIN Alauddin Makassar.
Walpole, R. E. 1988. Introduction to Statistics. New York: Macmillan.

Pengelompokan Provinsi Berdasarkan Ketersediaan Fasilitas Sekolah di Desa Menggunakan Analisis Cluster Hierarki - UAP Anmul

Najma Maritza

2025-11-30