Pendidikan merupakan salah satu pilar utama dalam peningkatan kualitas sumber daya manusia dan pembangunan jangka panjang suatu negara. Pemerataan akses pendidikan menjadi isu strategis di Indonesia karena kondisi geografis yang luas dan tingkat pembangunan yang tidak merata antarwilayah. Perbedaan dalam ketersediaan sarana pendidikan dapat berdampak langsung pada kesempatan belajar, pencapaian pendidikan, serta produktivitas masyarakat di masing-masing provinsi. Oleh karena itu, memahami pola persebaran dan karakteristik fasilitas pendidikan antarprovinsi menjadi langkah penting untuk mendukung kebijakan pembangunan yang lebih inklusif.
Dalam praktiknya, setiap provinsi memiliki jumlah dan komposisi sekolah yang berbeda pada setiap jenjang, mulai dari Sekolah Dasar hingga Perguruan Tinggi. Provinsi dengan jumlah penduduk besar cenderung memiliki jumlah sekolah yang lebih banyak, sementara provinsi dengan wilayah kepulauan atau pegunungan sering menghadapi tantangan aksesibilitas yang menghambat pemerataan fasilitas pendidikan. Ketimpangan ini dapat memunculkan kesenjangan kualitas pendidikan dan memperlebar disparitas pembangunan antarwilayah. Pemerintah membutuhkan pendekatan analitis yang mampu memetakan provinsi-provinsi tersebut ke dalam kelompok dengan karakteristik yang mirip, sehingga intervensi kebijakan dapat disesuaikan secara lebih akurat.
Berdasarkan latar belakang tersebut, analisis pola persebaran fasilitas pendidikan membutuhkan data yang mampu menggambarkan kondisi nyata di setiap provinsi. Untuk tujuan ini digunakan dataset yang berisi jumlah satuan pendidikan pada lima jenjang, yaitu Sekolah Dasar (SD), Sekolah Menengah Pertama (SMP), Sekolah Menengah Umum (SMU), Sekolah Menengah Kejuruan (SMK), dan Perguruan Tinggi. Setiap baris data mewakili satu provinsi, sehingga variasi kapasitas pendidikan antar wilayah dapat diamati secara langsung.
Data ini menjadi dasar untuk mengidentifikasi kesamaan struktur pendidikan antarprovinsi melalui pendekatan clustering. Dengan melihat perbedaan dan kemiripan jumlah sekolah di setiap jenjang, analisis dapat membantu memetakan kelompok provinsi yang menghadapi kondisi atau kebutuhan fasilitas pendidikan yang serupa. Informasi ini penting bagi pemerintah ketika menetapkan prioritas pembangunan pendidikan, terutama dalam upaya pemerataan akses dan peningkatan kualitas layanan pendidikan di seluruh Indonesia.
Dataset yang digunakan disimpan dalam file Excel (.xlsx) dan dimuat ke dalam R untuk keperluan analisis. Cuplikan data disajikan untuk memberikan gambaran awal mengenai struktur dan variabel yang digunakan.
library(readxl)
## Warning: package 'readxl' was built under R version 4.4.3
library(knitr)
data_sekolah = read_excel("C:/Users/HP/OneDrive/Documents/Semester 5/Analisis Multivariat I/DATA_SEKOLAH.xlsx")
kable(head(data_sekolah, 10),
caption = "Cuplikan 10 Baris Pertama Dataset Jumlah Sekolah per Provinsi")
| PROVINSI | SD | SMP | SMU | SMK | Perguruan Tinggi |
|---|---|---|---|---|---|
| ACEH | 3382 | 1421 | 735 | 205 | 119 |
| SUMATERA UTARA | 5003 | 2319 | 1147 | 712 | 202 |
| SUMATERA BARAT | 1256 | 808 | 415 | 180 | 102 |
| RIAU | 1811 | 1210 | 631 | 259 | 80 |
| JAMBI | 1484 | 810 | 393 | 169 | 42 |
| SUMATERA SELATAN | 2996 | 1410 | 720 | 252 | 99 |
| BENGKULU | 1187 | 488 | 194 | 93 | 27 |
| LAMPUNG | 2537 | 1437 | 695 | 405 | 96 |
| KEP. BANGKA BELITUNG | 391 | 217 | 85 | 49 | 16 |
| KEP. RIAU | 408 | 249 | 132 | 62 | 33 |
str(data_sekolah)
## tibble [38 × 6] (S3: tbl_df/tbl/data.frame)
## $ PROVINSI : chr [1:38] "ACEH" "SUMATERA UTARA" "SUMATERA BARAT" "RIAU" ...
## $ SD : num [1:38] 3382 5003 1256 1811 1484 ...
## $ SMP : num [1:38] 1421 2319 808 1210 810 ...
## $ SMU : num [1:38] 735 1147 415 631 393 ...
## $ SMK : num [1:38] 205 712 180 259 169 252 93 405 49 62 ...
## $ Perguruan Tinggi: num [1:38] 119 202 102 80 42 99 27 96 16 33 ...
Dalam upaya memahami variasi kondisi pendidikan antar provinsi, diperlukan suatu metode yang mampu mengelompokkan wilayah berdasarkan kemiripan karakteristiknya. Analisis cluster menjadi salah satu pendekatan statistik yang tepat untuk tujuan tersebut karena dapat mengelompokkan provinsi berdasarkan pola kesamaan pada beberapa variabel secara simultan. Melalui proses pengelompokan ini, provinsi-provinsi yang memiliki struktur jumlah sekolah yang serupa pada berbagai jenjang pendidikan dapat dikelompokkan ke dalam satu cluster yang sama.
Metode clustering hierarki dipilih karena mampu memberikan gambaran struktur pengelompokan secara lebih intuitif. Pendekatan ini menyajikan hubungan antar provinsi dalam bentuk dendrogram, sehingga pola kemiripan dan perbedaan antarwilayah dapat diamati secara visual. Selain itu, hierarchical clustering tidak memerlukan penentuan jumlah cluster sejak awal, sehingga fleksibel ketika pola data belum diketahui dengan jelas. Hal ini cocok dengan karakter data pendidikan antar provinsi yang variatif dan berskala berbeda.
Dengan menerapkan metode ini, analisis dapat membantu mengungkap kelompok provinsi yang menghadapi kebutuhan kapasitas pendidikan yang mirip, sehingga dapat menjadi dasar perumusan kebijakan pemerataan yang lebih tepat sasaran. Pendekatan ini juga relevan untuk melihat disparitas pendidikan secara struktural dan mendukung pengambilan keputusan berbasis data di tingkat regional maupun nasional.
Analisis cluster merupakan sekumpulan teknik statistik yang digunakan untuk mengelompokkan objek berdasarkan tingkat kemiripannya. Salah satu pendekatan utama dalam analisis cluster adalah hierarchical clustering, yaitu metode yang membangun struktur bertingkat untuk menunjukkan bagaimana objek digabungkan menjadi kelompok-kelompok yang semakin besar (Everitt et al., 2011). Metode ini banyak digunakan ketika peneliti ingin memahami pola kemiripan secara alami tanpa harus menentukan jumlah kelompok sejak awal. Hal tersebut menjadikannya cocok untuk konteks penelitian ini, di mana pola distribusi sekolah antarprovinsi belum diketahui secara pasti.
Hierarchical clustering terbagi menjadi dua pendekatan, yaitu agglomerative (penggabungan) dan divisive (pemecahan). Penelitian ini menggunakan pendekatan agglomerative, karena lebih umum digunakan dan mampu memberikan struktur penggabungan dari objek individual hingga cluster final (Murtagh & Contreras, 2012). Pada setiap tahap, dua cluster yang paling mirip digabungkan hingga hanya tersisa satu cluster besar.
Hasil dari hierarchical clustering divisualisasikan melalui dendrogram, yakni diagram pohon yang memperlihatkan urutan dan jarak penggabungan cluster. Dendrogram memungkinkan peneliti mengamati pola kemiripan antarprovinsi dalam konteks jumlah fasilitas pendidikan, sekaligus menentukan jumlah cluster optimal melalui pemotongan pada tinggi tertentu.
Ukuran jarak adalah komponen utama dalam clustering, karena menentukan persepsi “kemiripan” antar objek. Dalam data ini, setiap provinsi direpresentasikan oleh lima variabel numerik (jumlah SD, SMP, SMA, SMK, dan Perguruan Tinggi). Untuk data kuantitatif seperti ini, ukuran jarak yang paling sesuai adalah Jarak Euclidean. Jarak Euclidean merupakan ukuran jarak yang mengukur jarak garis lurus antar titik dalam ruang multidimensi.
Secara umum, jarak euclidean dihitung dengan menggunakan rumus sebagai berikut. \[ d_E(i,j)=\sqrt{\sum^p_{i=1}{\left(x_{ik}-x_{jk}\right)^2}} \]
Dengan:
- \(p\): Jumlah variabel
- \(x_{ik}\): Nilai variabel ke-k untuk
provinsi ke-i.
Keunggulan Jarak Euclidean terletak pada interpretasinya yang intuitif dan konsistensinya terhadap metode minimisasi varians yang digunakan pada Ward linkage. Namun ukuran ini sensitif terhadap perbedaan skala. Karena jumlah sekolah pada setiap jenjang memiliki rentang nilai berbeda, standarisasi variabel wajib dilakukan sebelum menghitung jarak untuk memastikan semua jenjang memiliki kontribusi yang seimbang (Jain, 2010).
Linkage method menentukan bagaimana jarak antar cluster dihitung ketika dua cluster potensial akan digabungkan. Dalam penelitian ini digunakan Ward’s minimum variance method, yang bertujuan meminimalkan peningkatan total within-cluster sum of squares (WSS) pada setiap tahap penggabungan (Ward, 1963). Ward bekerja dengan memilih dua cluster yang, jika digabungkan, menghasilkan kenaikan varians paling kecil.
Ward’s linkage banyak dipilih dalam analisis sosial dan ekonomi regional karena memiliki kemampuan menghasilkan cluster yang kompak dan relatif seimbang ukurannya (Kaufman & Rousseeuw, 1990). Kelebihan Ward antara lain: 1. Membentuk cluster yang homogen secara internal. 2. Mengurangi efek outlier dibanding metode linkage lain. 3. Sangat kompatibel dengan Jarak Euclidean, karena keduanya konsisten dalam kerangka pengurangan variansi. Dengan demikian, kombinasi Jarak Euclidean dan Ward linkage sangat sesuai untuk mengelompokkan provinsi berdasarkan karakter fasilitas pendidikan, yang bertujuan menemukan kelompok wilayah dengan pola yang mirip.
Secara umum, Ward’s linkage dihitung dengan menggunakan rumus sebagai berikut. \[ \Delta(C_a, C_b) = \frac{n_a n_b}{n_a + n_b} \left\| \bar{x}_a - \bar{x}_b \right\|^2 \]
Dengan:
- \(C_a, C_b\): Dua cluster yang
dibandingkan
- \(n_a\): Ukuran cluster ke-a
- \(\bar{x}_a\): centroid cluster
ke-a.
Metode Ward cocok untuk analisis persebaran fasilitas pendidikan karena menghasilkan cluster dengan variasi internal yang kecil sehingga dapat mencerminkan karakteristik pendidikan tiap provinsi secara lebih konsisten (Everitt et al., 2011).
Karena variabel jumlah sekolah sangat berbeda skalanya antarjenjang (misalnya SD umumnya jauh lebih banyak dibanding Perguruan Tinggi), standarisasi digunakan untuk membuat seluruh variabel berada pada rentang yang sebanding. Standarisasi yang digunakan adalah standarisasi z-score.
Secara umum, standarisasi z-score dihitung dengan menggunakan rumus sebagai berikut. \[ z=\frac{x-\mu}{\sigma} \]
Standarisasi mencegah variabel berskala besar mendominasi jarak Euclidean, sehingga struktur cluster yang terbentuk lebih mencerminkan pola keseluruhan (Everitt et al., 2011).
Validasi cluster bertujuan menilai apakah struktur cluster yang terbentuk benar-benar mencerminkan pola dalam data, bukan sekadar hasil algoritma. Dalam hierarchical clustering, validasi menjadi penting karena metode ini tidak memiliki fungsi objektif eksplisit untuk dioptimalkan seperti K-Means. Pada penelitian ini, digunakan validasi internal karena validasi internal adalah validasi yang menilai kualitas cluster berdasarkan data itu sendiri.
Berikut merupakan metode validasi yang umum digunakan.
Koefisien Silhouette
Koefisien Silhouette mengukur seberapa tepat observasi dimasukkan ke
dalam suatu cluster serta memperkirakan rata-rata antar cluster.
Koefisien Silhouette menjadi indikator penting untuk memastikan
homogenitas internal agar cluster provinsi yang dibentuk homogen.
Secara umum, koefisien silhouette dihitung dengan menggunakan rumus sebagai berikut. \[ s(i)=\frac{b(i)-a(i)}{max(a(i),b(i))} \]
Dengan:
- \(a(i)\): Rata-rata kemiripan antara
objek ke-i dengan objek lain di dalam clusternya
- \(b(i)\): Nilai minimum dari
rata-rata kemiripan objek ke-i dengan objek lain di luar cluster.
Kemudian,dihitung rata-rata seluruh s(i) untuk menghasilkan koefisien global silhouette dengan rumus sebagai berikut. \[ S=\frac{1}{n}\sum^n_{i=1}s(i) \]
Hasil perhitungan koefisien global silhouette dapat diinterpretasikan
sebagai berikut.
- \(S>0.7\): Struktur cluster sangat
baik
- \(0.5 \leq S \leq 0.7\): Struktur
cluster baik
- \(0.25 \leq S<0.5\): Struktur
cluster lemah
- \(S<0.25\): Struktur cluster
buruk.
Indeks Davies-Bouldin
Indeks Davies–Bouldin adalah ukuran keunikan cluster yang
mempertimbangkan baik kekompakan cluster (jarak antara titik data dengan
pusat cluster) maupun pemisahan antar cluster. Indeks ini merupakan
fungsi dari rasio pemisahan within-cluster terhadap pemisahan antar
cluster. Semakin rendah nilai indeks Davies Bouldin, semakin baik
kualitas clustering.
Secara umum, indeks davies-bouldin dihitung dengan menggunakan rumus sebagai berikut. \[ DB_k=\frac{1}{k}\sum_{i=1}^{k}\max_{j \neq i}\left(\frac{S_i + S_j}{d(\bar{x}_i,\bar{x}_j)}\right) \]
Dengan:
- \(k\): Banyaknya cluster
- \(S_i\): Rata-rata jarak antara
centroid dengan sampel lainnya dalam cluster
- \(d(\bar{x}_i,\bar{x}_j)\): jarak
antara centroid cluster ke-i dan ke-j
Penelitian ini bertujuan untuk: 1. Mengelompokkan provinsi di Indonesia berdasarkan karakteristik jumlah fasilitas pendidikan pada berbagai jenjang, sehingga diperoleh struktur kedekatan antarwilayah yang merefleksikan kondisi pendidikan masing-masing provinsi. 2. Mengidentifikasi kelompok provinsi yang memiliki profil pendidikan serupa sebagai dasar analisis pemerataan pembangunan sektor pendidikan. 3. Menyajikan struktur pengelompokan dalam bentuk dendrogram sebagai representasi hubungan kedekatan antarwilayah. 4. Mengevaluasi kualitas hasil pengelompokan menggunakan ukuran validasi yang relevan, sehingga interpretasi cluster dapat dilakukan secara lebih akurat.
library(readxl) # Membaca file Excel
library(dplyr) # Manipulasi data
library(cluster) # Silhouette dan analisis cluster
library(factoextra) # Visualisasi cluster
library(NbClust) # Menentukan jumlah klaster (cluster) yang optimal atau relevan dalam sebuah set data.
library(clusterCrit) # Menghitung Davies–Bouldin Index
library(reshape2) # Memanipulasi dan mentransformasi struktur data (data frame) antara format "lebar" (wide) dan "panjang" (long).
# Membaca data .xlsx (pastikan berada di working directory)
data_sekolah = read_excel("C:/Users/HP/OneDrive/Documents/Semester 5/Analisis Multivariat I/DATA_SEKOLAH.xlsx")
# Mengambil hanya variabel numerik untuk clustering (tanpa nama provinsi)
data_clust = data_sekolah[, -1]
# Standardisasi data agar skala antarvariabel setara
data_scaled = scale(data_clust)
# Menghitung jarak Euclidean antarprovinsi
dist_euc = dist(data_scaled, method="euclidean")
# Membentuk hierarchical clustering dengan Ward's linkage (Ward.D2)
hc_ward = hclust(dist_euc, method="ward.D2")
# k = 2
# Menampilkan Dendogram
plot(hc_ward, labels=data_sekolah$PROVINSI, main="Dendrogram Clustering Sekolah per Provinsi (Ward)", xlab = "Provinsi", ylab = "Jarak")
rect.hclust(hc_ward, k=2, border="red")
clusters2 = cutree(hc_ward, k=2)
# Global Silhouette
# Mengukur kualitas cluster: semakin mendekati 1 semakin baik
sil = silhouette(clusters2, dist_euc)
global_silhouette2 = mean(sil[, 3])
# Davies–Bouldin Index
# Semakin kecil nilainya semakin baik pemisahan cluster
db_index2 = intCriteria(as.matrix(data_scaled), clusters2, "davies_bouldin")$davies_bouldin
# k = 3
# Menampilkan Dendogram
plot(hc_ward, labels=data_sekolah$PROVINSI, main="Dendrogram Clustering Sekolah per Provinsi (Ward)", xlab = "Provinsi", ylab = "Jarak")
rect.hclust(hc_ward, k=3, border="red")
clusters3 = cutree(hc_ward, k=3)
# Global Silhouette
# Mengukur kualitas cluster: semakin mendekati 1 semakin baik
sil = silhouette(clusters3, dist_euc)
global_silhouette3 = mean(sil[, 3])
# Davies–Bouldin Index
# Semakin kecil nilainya semakin baik pemisahan cluster
db_index3 = intCriteria(as.matrix(data_scaled), clusters3, "davies_bouldin")$davies_bouldin
# k = 4
# Menampilkan Dendogram
plot(hc_ward, labels=data_sekolah$PROVINSI, main="Dendrogram Clustering Sekolah per Provinsi (Ward)", xlab = "Provinsi", ylab = "Jarak")
rect.hclust(hc_ward, k=4, border="red")
clusters4 = cutree(hc_ward, k=4)
# Global Silhouette
# Mengukur kualitas cluster: semakin mendekati 1 semakin baik
sil = silhouette(clusters4, dist_euc)
global_silhouette4 = mean(sil[, 3])
# Davies–Bouldin Index
# Semakin kecil nilainya semakin baik pemisahan cluster
db_index4 = intCriteria(as.matrix(data_scaled), clusters4, "davies_bouldin")$davies_bouldin
#Menunjukkan hasil perhitungan indeks validasi cluster
print('Hasil Indeks Validasi Cluster (k = 2):')
## [1] "Hasil Indeks Validasi Cluster (k = 2):"
global_silhouette2
## [1] 0.7761021
db_index2
## [1] 0.4626907
print('Hasil Indeks Validasi Cluster (k = 3):')
## [1] "Hasil Indeks Validasi Cluster (k = 3):"
global_silhouette3
## [1] 0.4897506
db_index3
## [1] 0.6445564
print('Hasil Indeks Validasi Cluster (k = 4):')
## [1] "Hasil Indeks Validasi Cluster (k = 4):"
global_silhouette4
## [1] 0.4940547
db_index4
## [1] 0.6372697
Analisis dilakukan menggunakan metode agglomerative hierarchical clustering dengan ukuran jarak Euclidean dan metode pengelompokan Ward. Seluruh variabel pendidikan telah dinormalisasi menggunakan standardisasi z-score untuk memastikan tiap variabel berkontribusi secara proporsional dalam perhitungan jarak antarprovinsi.
Dendrogram yang dihasilkan menunjukkan struktur penggabungan provinsi berdasarkan kemiripan karakteristik pendidikan. Tiga nilai k diuji (k = 2, 3, 4), dan masing-masing dievaluasi menggunakan dua indeks validasi, yaitu indeks global silhouette dan indeks Davies-Bouldin. Hasil ringkasnya adalah sebagai berikut.
k=2
Menunjukkan nilai global silhouette paling tinggi, yaitu sebesar 0.776
dan indeks Davies-Bouldin paling rendah, yaitu sebesar 0.462. Meskipun
secara statistik menunjukkan bahwa pengelompokkan menjadi 2 cluster
merupakan pengelompokkan terbaik, tetapi hasil pengelompokan kurang
bermakna secara substantif karena hanya memisahkan provinsi berpopulasi
ekstrem dari gabungan seluruh provinsi lainnya.
k=3
Menunjukkan nilai global silhouette sebesar 0.49 dan indeks
Davies-Bouldin sebesar 0.645. Meskipun secara statistik, pengelompokkan
menjadi 3 cluster merupakan pengelompokkan terburuk. Namun,
pengelompokkan menjadi 3 cluster memberikan keseimbangan terbaik antara
validitas statistik dan interpretasi substantif.
k=4
Menunjukkan nilai global silhouette sebesar 0.494 dan indeks
Davies-Bouldin sebesar 0.637. Secara statistik, pengelompokkan menjadi 4
cluster sedikit lebih baik dari pengelompokkan 3 cluster. Namun,
pengelompokkan menjadi 4 cluster tidak memberikan perubahan kebijakan
yang signifikan dibandingkan pengelompokkan 3 cluster. Hal ini karena
pemecahan cluster hanya berfokus kepada cluster besar. Sehingga
pengelompokkan menjadi 3 cluster masih lebih efektif.
Sehingga berdasarkan hasil evaluasi yang dilakukan, dipilihlah k = 3 dimana cluster tidak terlalu timpang, dan masing-masing kelompok mencerminkan kondisi riil pemerataan pendidikan di Indonesia. Hasil pengelompokkan menjadi 3 cluster adalah sebagai berikut.
Skala pendidikan menengah
Komposisi sekolah cenderung proporsional dengan jumlah penduduk
Variasi internal lebih rendah
Stabil secara agregat Sehingga, cluster ini cocok untuk implementasi kebijakan pendidikan berskala nasional yang bersifat prioritas tanpa banyak modifikasi, meskipun evaluasi lokal tetap dibutuhkan.
Dari perspektif kebijakan, pengelompokan ini dapat membantu pemerintah menentukan segmentasi prioritas dalam penyediaan fasilitas pendidikan serta penyusunan program berbasis wilayah. Perbedaan utama antar provinsi dipengaruhi oleh jumlah penduduk, ketersediaan fasilitas, dan tantangan geografis. Sehingga kebijakan yang harus diambil tetap harus mempertimbangkan perbedaan utama tersebut. Hal ini karena kebijakan yang diambil untuk provinsi DKI Jakarta tetap harus dibedakan dengan kebijakan yang diambil untuk provinsi Papua Selatan, meskipun kedua provinsi ini termasuk kedalam cluster yang sama.
Penelitian ini berhasil mengelompokkan 38 provinsi di Indonesia berdasarkan indikator pendidikan menggunakan clustering hierarki dengan ukuran jarak Euclidean dan metode Ward’s linkage. Dari beberapa alternatif jumlah cluster yang diuji, solusi dengan k = 3 merupakan pilihan terbaik karena memberikan struktur kelompok yang lebih representatif secara substantif dan tetap memiliki validitas statistik yang memadai.
Cluster 1 menggambarkan provinsi dengan beban pendidikan sangat besar. Cluster 2 berisi provinsi dengan karakteristik menengah serta tantangan geografis yang cukup signifikan. Cluster 3 mencerminkan provinsi dengan pola pendidikan stabil dan homogen. Struktur ini dapat menjadi dasar penyusunan kebijakan pemerataan fasilitas pendidikan antarprovinsi.
Everitt, B. S., Landau, S., Leese, M., & Stahl, D. (2011). Cluster analysis (5th ed.). John Wiley & Sons. https://doi.org/10.1002/9780470977811
Jain, A. K. (2010). Data clustering: 50 years beyond K-means. Pattern Recognition Letters, 31(8), 651–666. https://doi.org/10.1016/j.patrec.2009.09.011
Kaufman, L., & Rousseeuw, P. J. (1990). Finding groups in data: An introduction to cluster analysis. John Wiley & Sons. https://doi.org/10.1002/9780470316801
Murtagh, F., & Contreras, P. (2012). Algorithms for hierarchical clustering: An overview. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 2(1), 86–97. https://doi.org/10.1002/widm.53
Rousseeuw, P. J. (1987). Silhouettes: A graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics, 20, 53–65. https://doi.org/10.1016/0377-0427(87)90125-7
Sokal, R. R., & Rohlf, F. J. (1962). The comparison of dendrograms by objective methods. Taxon, 11(2), 33–40. https://doi.org/10.2307/1217208
Ward, J. H., Jr. (1963). Hierarchical grouping to optimize an objective function. Journal of the American Statistical Association, 58(301), 236–244. https://doi.org/10.1080/01621459.1963.10500845