1 PENDAHULUAN

1.1 Latar Belakang Kasus atau Data beserta Sumbernya

Penelitian ini menggunakan data sekunder yang diperoleh dari dua sumber utama, yaitu publikasi Badan Pusat Statistik (BPS) dan data Kementerian Kesehatan RI dari Badan Nasional Penanggulangan Bencana (BNPB). Data yang dianalisis meliputi lima variabel utama: jumlah penduduk \((X_1)\), kepadatan penduduk \((X_2)\), jumlah kasus positif COVID-19 \((X_3)\), jumlah pasien yang sembuh \((X_4)\), dan jumlah pasien yang meninggal dunia \((X_5)\).

Variabel jumlah penduduk \((X_1)\) mengacu pada jumlah total individu yang tinggal di suatu wilayah geografis tertentu. Variabel kepadatan penduduk \((X_2)\) adalah rasio antara jumlah penduduk dengan luas wilayah yang dihuni, yang dapat mempengaruhi tingkat transmisi penyakit menular. Variabel jumlah kasus positif COVID-19 \((X_3)\) mencerminkan total individu yang terkonfirmasi terinfeksi berdasarkan hasil tes. Variabel jumlah pasien yang sembuh \((X_4)\) mengindikasikan jumlah orang yang berhasil pulih setelah dirawat. Sementara itu, variabel jumlah pasien yang meninggal dunia \((X_5)\) menunjukkan jumlah individu yang kehilangan nyawa akibat COVID-19.

1.2 Cuplikan Data yang Digunakan

> library(readxl)
> 
> covid_data <- read_excel("C:/Users/ASUS/Downloads/COVID19_Data_Indonesia_2020.xlsx")
> covid_data <- data.frame(covid_data)
> View(covid_data)

1.3 Latar Belakang Metode

Clustering adalah metode penting dalam analisis data yang membantu memahami struktur dan pola dalam data yang kompleks. Menurut Pande et al. (2012), analisis cluster memungkinkan peneliti mengidentifikasi pola atau distribusi tersembunyi dalam data, serta sering digunakan sebagai langkah awal sebelum menerapkan algoritma lain. Teknik ini bertujuan untuk mengelompokkan objek atau data berdasarkan kesamaan karakteristiknya, di mana objek yang memiliki kemiripan tinggi ditempatkan dalam cluster yang sama, sementara objek yang berbeda ditempatkan di cluster yang berbeda. Clustering memiliki aplikasi luas di berbagai bidang seperti pemasaran, biologi, dan pengolahan data.

Berbagai metode dapat digunakan dalam analisis clustering, di antaranya metode hierarki, yang membentuk cluster secara bertingkat, dan metode non-hierarki seperti K-Means, yang membagi data ke dalam jumlah cluster yang telah ditentukan sebelumnya. K-Means adalah salah satu metode non-hierarki yang paling populer karena kesederhanaannya dan efisiensinya dalam mengelompokkan data (Agusta, 2007). Namun, pemilihan jumlah cluster yang optimal tetap menjadi faktor penting untuk menghasilkan analisis yang akurat.

Dalam analisis clustering, data yang digunakan umumnya terdiri dari dua jenis, yaitu data metrik dan data non-metrik. Data metrik berupa angka yang dapat diukur, seperti tinggi atau berat badan, sedangkan data non-metrik berbentuk kategori, seperti jenis kelamin atau tipe produk. Data non-metrik biasanya perlu diubah menjadi format numerik agar dapat dianalisis secara statistik.

Sebelum melakukan analisis clustering, penting untuk menguji beberapa asumsi agar hasilnya valid. Salah satu uji yang dilakukan adalah uji kelayakan sampel, yang menggunakan nilai Kaiser-Meyer-Olkin (KMO) untuk menentukan apakah sampel cukup representatif terhadap populasi. Nilai KMO di atas 0,5 menunjukkan bahwa sampel layak digunakan untuk analisis clustering. Selain itu, dilakukan juga uji multikolinearitas untuk memastikan tidak ada korelasi yang terlalu kuat antara variabel independen. Korelasi tinggi (koefisien korelasi > 0,85) dapat menunjukkan adanya multikolinearitas, yang dapat mengganggu hasil analisis. Dengan memenuhi asumsi-asumsi ini, analisis clustering dapat menghasilkan hasil yang lebih akurat dan dapat diandalkan.

1.4 Tinjauan Pustaka Metode

1.4.1 Statistika Deskriptif

Statistika deskriptif adalah cabang ilmu statistika yang berfokus pada pengumpulan, penyajian, dan analisis data untuk memberikan gambaran jelas mengenai karakteristik suatu kumpulan data. Menurut Ghozali (2016), statistika deskriptif mencakup kegiatan seperti menghimpun, mengorganisasi, meringkas, dan menyajikan data agar lebih mudah dipahami dan bermakna. Berbeda dengan statistik inferensial, statistika deskriptif tidak bertujuan untuk membuat generalisasi dari sampel ke populasi, melainkan hanya untuk memberikan deskripsi atau gambaran umum tentang karakteristik data yang diteliti.

Tujuan utama dari analisis statistika deskriptif adalah untuk menjelaskan variabel-variabel dalam penelitian, misalnya dengan mengidentifikasi nilai minimum, maksimum, rata-rata (mean), dan standar deviasi (Muchson, 2017). Selain itu, penyajian data dalam bentuk tabel distribusi frekuensi atau grafik juga menjadi bagian penting dari analisis ini. Dengan statistika deskriptif, data dapat diolah dan disajikan dalam format yang lebih informatif, memudahkan pemahaman bagi peneliti maupun audiens (Ghozali, 2016; Muchson, 2017).

Secara keseluruhan, statistika deskriptif adalah alat yang sangat berguna untuk memahami dan menyajikan informasi dari kumpulan data. Melalui metode ini, peneliti dapat menggambarkan karakteristik data dengan jelas tanpa membuat kesimpulan inferensial.

1.4.2 Analisis Cluster Hierarki

Analisis cluster hierarki adalah metode yang digunakan untuk mengelompokkan objek berdasarkan kesamaan karakteristiknya. Metode ini terbagi menjadi dua pendekatan utama, yaitu agglomerative (penggabungan) dan divisive (pemecahan). Pada pendekatan agglomerative, setiap objek awalnya dianggap sebagai cluster tersendiri, kemudian dua cluster yang paling mirip digabungkan secara bertahap hingga akhirnya semua objek tergabung dalam satu cluster besar. Sebaliknya, pendekatan divisive dimulai dengan satu cluster besar yang mencakup seluruh objek, yang kemudian dibagi secara bertahap menjadi cluster-cluster yang lebih kecil (Sukmawati, 2017).

Salah satu ukuran jarak yang paling sering digunakan dalam analisis cluster adalah jarak Euclidean. Jarak ini didefinisikan sebagai akar kuadrat dari jumlah kuadrat perbedaan antara dua titik dalam ruang multidimensi. Rumus matematis untuk menghitung jarak Euclidean antara dua objek \(i\) dan \(j\) dengan \(p\) variabel adalah sebagai berikut:

\[ d_{ij} = \sqrt{\sum_{k=1}^{p} (y_{ik} - y_{jk})^2} \]

Di mana \(y_{ik}\) dan \(y_{jk}\) merupakan nilai pengamatan pada variabel ke-\(k\) untuk objek ke-\(i\) dan ke-\(j\), secara berturut-turut (Akbar & Lusia, 2022).

Dalam analisis cluster hierarki, terdapat beberapa metode linkage yang digunakan untuk menentukan jarak antar cluster. Beberapa metode tersebut antara lain: single linkage, yang menghitung jarak terpendek antara dua cluster; complete linkage, yang menghitung jarak terjauh antara dua cluster; dan average linkage, yang menghitung rata-rata jarak antara semua pasangan objek dari dua cluster. Pemilihan metode linkage ini sangat penting, karena dapat memengaruhi hasil clustering serta struktur dendrogram yang dihasilkan (Sukmawati, 2017).

Dendrogram adalah representasi visual dari hasil analisis cluster hierarki yang menggambarkan hubungan antar cluster dan urutan penggabungan mereka. Pada dendrogram, sumbu vertikal biasanya menunjukkan jarak atau tingkat perbedaan (dissimilarity) antar cluster, sementara sumbu horizontal merepresentasikan objek atau kelompok yang dianalisis. Melalui dendrogram, peneliti dapat dengan mudah menentukan jumlah cluster yang optimal dan memahami struktur data yang sedang diteliti (Muthiah & Rosmaini, 2023).

Analisis cluster hierarki sendiri merupakan metode yang efektif untuk mengelompokkan data berdasarkan kemiripan karakteristik. Dengan memanfaatkan jarak Euclidean sebagai ukuran kesamaan dan berbagai metode linkage, analisis ini mampu menghasilkan dendrogram yang memberikan wawasan mendalam tentang pola dan struktur data.

1.4.3 Pengujian Asumsi dalam Analisis Cluster

Pengujian asumsi dalam analisis cluster, seperti uji Kaiser-Meyer-Olkin (KMO) dan uji nonmultikolinieritas, merupakan langkah penting untuk memastikan validitas dan reliabilitas hasil analisis. Berikut adalah tinjauan pustaka terkait kedua pengujian tersebut:

1.4.3.1 Uji Kaiser-Meyer-Olkin (KMO)

Uji KMO digunakan untuk menilai apakah sampel yang digunakan cukup representatif terhadap populasi. Menurut Fitriadi dan Kurniawati (2020), nilai KMO berkisar antara 0 hingga 1, dengan nilai di atas 0,5 dianggap menunjukkan bahwa sampel layak untuk analisis. Nilai KMO yang ideal berada di antara 0,5 hingga 1, di mana nilai yang lebih mendekati 1 menunjukkan tingkat representasi yang semakin baik. Studi yang dilakukan oleh Putera et al. (2021) menunjukkan bahwa nilai KMO sebesar 0,622 cukup baik untuk melanjutkan analisis cluster, menjadikan uji KMO sebagai indikator awal yang penting sebelum proses clustering dilakukan.

1.4.3.2 Uji Non-Multikolinieritas

Uji non-multikolinieritas bertujuan untuk memastikan bahwa tidak terdapat hubungan linear yang kuat antara variabel independen dalam analisis, yang dapat memengaruhi kestabilan dan keakuratan hasil. Ridwan dan Retnawati (2021) menyatakan bahwa salah satu metode untuk mendeteksi multikolinieritas adalah dengan menghitung Variance Inflation Factor (VIF). Nilai VIF di atas 10 menunjukkan adanya masalah serius dalam multikolinieritas. Selain itu, Amaliyah dan Wibawati (2012) menjelaskan bahwa variabel dapat dianggap bebas dari multikolinieritas jika nilai toleransi lebih besar dari 0,10 dan nilai VIF kurang dari atau sama dengan 10. Langkah ini penting untuk memastikan bahwa variabel dalam analisis tidak saling memengaruhi secara signifikan, sehingga hasil clustering menjadi lebih akurat.

1.4.4 Indeks Validitas

Indeks validitas dalam analisis cluster adalah alat yang digunakan untuk menilai seberapa baik data dikelompokkan ke dalam cluster. Tiga indeks yang umum digunakan untuk tujuan ini adalah Indeks Connectivity, Indeks Dunn, dan Indeks Silhouette.

1.4.4.1 Indeks Connectivity

Indeks validitas konektivitas adalah alat dalam analisis klaster yang menilai seberapa baik pengelompokan data mencerminkan struktur data berdasarkan konektivitas antar titik dalam kluster. Indeks ini memungkinkan identifikasi kluster dengan bentuk dan ukuran beragam asalkan kluster terpisah dengan baik, sehingga memberikan penilaian yang lebih akurat terhadap struktur data. Penelitian menunjukkan bahwa penggabungan ukuran konektivitas dalam indeks validitas meningkatkan kemampuan menentukan jumlah kluster yang tepat dan teknik pengelompokan yang sesuai (Saha & Bandyopadhyay, 2012).

1.4.4.2 Indeks Dunn

Indeks Dunn merupakan salah satu ukuran validitas yang paling sering digunakan dalam analisis cluster. Indeks ini mengevaluasi tingkat pemisahan antar cluster dengan membandingkan jarak minimum antar cluster dengan jarak maksimum dalam cluster. Nilai Indeks Dunn yang lebih tinggi menunjukkan pemisahan antar cluster yang lebih baik. Luna-Romera et al. (2020) menjelaskan bahwa indeks ini membantu mengidentifikasi cluster dengan jarak antar cluster yang besar dan jarak dalam cluster yang kecil, sehingga memberikan gambaran yang jelas tentang struktur data.

1.4.4.3 Indeks Silhouette

Indeks Silhouette digunakan untuk menilai seberapa baik suatu titik data dikelompokkan dalam cluster-nya dibandingkan dengan cluster lainnya. Nilai indeks ini berkisar antara -1 hingga 1, di mana nilai mendekati 1 menunjukkan bahwa titik data terkelompok dengan baik dalam cluster yang benar, sedangkan nilai negatif menunjukkan kemungkinan kesalahan pengelompokan. Riquelme-Santos et al. (2015) menyatakan bahwa Indeks Silhouette sangat berguna untuk mengevaluasi kualitas clustering, terutama pada dataset dengan dimensi yang tinggi.

1.5 Tujuan

Analisis cluster hierarki bertujuan untuk memahami pola pengelompokan dalam data yang kompleks dengan cara menyusun objek-objek berdasarkan kesamaan karakteristik mereka. Dalam konteks data yang ada dalam dokumen ini, analisis cluster hierarki dapat diterapkan untuk mengelompokkan provinsi di Indonesia berdasarkan karakteristik persebaran kasus COVID-19, seperti jumlah penduduk, kepadatan penduduk, jumlah kasus positif, pasien sembuh, dan pasien meninggal. Analisis ini memungkinkan identifikasi kelompok provinsi dengan tingkat penyebaran yang tinggi, sedang, atau rendah. Dengan pendekatan hierarki, hubungan antar kelompok dapat divisualisasikan dalam bentuk dendrogram, memberikan wawasan yang mendalam tentang hubungan antar provinsi dan pola penyebaran. Hasil pengelompokan ini bermanfaat untuk mendukung pengambilan keputusan dalam upaya mitigasi dan alokasi sumber daya yang lebih efisien dalam menangani pandemi.

2 SOURCE CODE

2.1 Library

> # Library
> library(psych)
> library(GPArotation)
> library(clValid)
> library(ggplot2)
> library(cluster)
> library(factoextra)
> library(tidyverse)
> library(car)
> library(readxl)

Keterangan :

Library psych digunakan untuk analisis data psikometrik, analisis faktor, reliabilitas, dan statistik deskriptif.

Library GPArotation digunakan untuk memberikan berbagai metode rotasi dalam analisis faktor, seperti rotasi ortogonal dan oblique.

Library clValid digunakan untuk validasi internal, stabilitas, dan evaluasi eksternal dari hasil clustering.

Library ggplot2 digunakan untuk membuat grafik yang elegan dan informatif dengan sistem berbasis layer.

Library cluster digunakan sebagai alat untuk analisis cluster seperti k-means, hierarki, dan analisis siluet.

Library factoextra digunakan untuk membantu dalam visualisasi hasil analisis multivariat seperti PCA (Principal Component Analysis), clustering, dan analisis faktor.

Library tidyverse digunakan sebagai alat untuk manipulasi data (dplyr), visualisasi data (ggplot2), dan pengolahan data berbasis tidy (terstruktur).

Library car digunakan sebagai alat untuk memeriksa asumsi model, melakukan transformasi data, serta uji multikolinearitas.

Library readxl digunakan untuk membaca file Excel ke dalam R tanpa memerlukan Microsoft Excel terinstal.

2.2 Membangkitkan Data

> covid_data <- read_excel("C:/Users/ASUS/Downloads/COVID19_Data_Indonesia_2020.xlsx")
> covid_data <- data.frame(covid_data)
> View(covid_data)

2.3 Analisis

> # Statistik Deskriptif
> descriptive_stats <- summary(covid_data)
> descriptive_stats
   Provinsi               X1              X2                 X3        
 Length:34          Min.   :  743   Min.   :   10.00   Min.   :  20.0  
 Class :character   1st Qu.: 2269   1st Qu.:   74.25   1st Qu.: 129.2  
 Mode  :character   Median : 4044   Median :  107.00   Median : 240.0  
                    Mean   : 7885   Mean   : 1026.55   Mean   : 775.9  
                    3rd Qu.: 8079   3rd Qu.:  250.00   3rd Qu.: 665.2  
                    Max.   :49317   Max.   :15900.00   Max.   :7348.0  
       X4                X5        
 Min.   :   7.00   Min.   :  0.00  
 1st Qu.:  37.25   1st Qu.:  2.25  
 Median :  93.50   Median :  6.50  
 Mean   : 213.06   Mean   : 46.26  
 3rd Qu.: 233.75   3rd Qu.: 31.75  
 Max.   :2082.00   Max.   :517.00  
> 
> # Uji Asumsi
> # Uji Sampel Representatif
> kmo_result <- KMO(covid_data[,2:6])
> kmo_result
Kaiser-Meyer-Olkin factor adequacy
Call: KMO(r = covid_data[, 2:6])
Overall MSA =  0.71
MSA for each item = 
  X1   X2   X3   X4   X5 
0.79 0.91 0.64 0.70 0.68 
> 
> # Uji Non-Multikolinearitas
> cor_matrix <- cor(covid_data[,2:6], method = 'pearson')
> cor_matrix
          X1        X2        X3        X4        X5
X1 1.0000000 0.3406891 0.5269481 0.3887806 0.5333894
X2 0.3406891 1.0000000 0.7405335 0.8168637 0.6945522
X3 0.5269481 0.7405335 1.0000000 0.9325276 0.9884274
X4 0.3887806 0.8168637 0.9325276 1.0000000 0.8888751
X5 0.5333894 0.6945522 0.9884274 0.8888751 1.0000000
> 
> # Standarisasi
> standardized_data <- scale(covid_data[,2:6])
> standardized_data
               X1          X2          X3          X4          X5
 [1,] -0.22430039 -0.29197866 -0.51372988 -0.52688573 -0.41206395
 [2,] -0.31669335 -0.08658526 -0.21131244  0.31157869 -0.38475367
 [3,]  0.45012360  0.09761999  0.05780510  0.08315088  0.20696909
 [4,] -0.57093022 -0.29323239 -0.49606054 -0.50001187 -0.41206395
 [5,] -0.52602814 -0.29041148 -0.51305029 -0.51344880 -0.40296052
 [6,] -0.36079202  0.05624668 -0.36693849 -0.14258954 -0.34833996
 [7,]  0.23864638  4.66184799  4.46630383  5.02256633  4.28530439
 [8,] -0.38025257 -0.29909361 -0.46140147 -0.53226051 -0.42116737
 [9,]  3.69860661  0.11517230  1.00855117  1.09092063  0.88972612
[10,]  2.39537486  2.99594552  0.42614275  0.39757504  0.21607252
[11,]  2.84002157 -0.06129113  2.77344576  1.06404677  3.18378972
[12,] -0.25134877 -0.31078470 -0.39887921 -0.43013984 -0.38475367
[13,] -0.37168279 -0.31241456 -0.32684270 -0.11034091 -0.39385709
[14,] -0.46148696 -0.31611308 -0.24868987 -0.13183999 -0.24820226
[15,] -0.32499533 -0.28743386  0.09722131 -0.30652008  0.30710679
[16,] -0.63752457 -0.31862056 -0.41518936 -0.37907951 -0.40296052
[17,] -0.50835296 -0.23806798 -0.39344249 -0.29845793 -0.28461597
[18,] -0.25125950 -0.24276949 -0.09510259  0.20945803 -0.33013310
[19,]  0.05234288 -0.29276224  0.14003546 -0.02703194 -0.11165085
[20,] -0.21814086 -0.28116518 -0.14199428  0.13958599 -0.19358170
[21,] -0.48005483 -0.26533675 -0.29694075 -0.43551461 -0.35744338
[22,]  0.59616697 -0.25922479 -0.24936946 -0.18021294 -0.04792687
[23,] -0.46237965 -0.29946973 -0.36150177 -0.24471021 -0.38475367
[24,]  0.08626494 -0.26126211  0.51992614  1.02911075  0.25248623
[25,] -0.43122492 -0.30639663 -0.44033418 -0.40864075 -0.38475367
[26,]  0.05028971 -0.24527697 -0.43693624 -0.55375959 -0.33013310
[27,] -0.08147069 -0.29664882 -0.44780967 -0.33608133 -0.36654681
[28,] -0.59172980 -0.30953097 -0.42334444 -0.50001187 -0.41206395
[29,] -0.54289989 -0.30984440 -0.37577316 -0.47582540 -0.34833996
[30,] -0.61815329 -0.29260552 -0.41315059 -0.42476507 -0.40296052
[31,] -0.40221264 -0.28821745 -0.06859859 -0.38982905 -0.36654681
[32,] -0.58066050 -0.29605330 -0.46479941 -0.46238847 -0.40296052
[33,] -0.21680183 -0.28602341 -0.46479941 -0.53494789 -0.41206395
[34,] -0.59646103 -0.28821745 -0.46344024 -0.50269926 -0.39385709
attr(,"scaled:center")
        X1         X2         X3         X4         X5 
7884.64706 1026.54706  775.94118  213.05882   46.26471 
attr(,"scaled:scale")
        X1         X2         X3         X4         X5 
11202.1519  3190.4629  1471.4760   372.1088   109.8487 
> rownames(standardized_data) <- 1:nrow(standardized_data)
> 
> # Menghitung Jarak Euclidean
> euclidean_distance <- dist(standardized_data, method = "euclidean")
> euclidean_distance
             1           2           3           4           5           6
2   0.91975413                                                            
3   1.29947437  1.04722450                                                
4   0.34812099  0.92078554  1.49176552                                    
5   0.30216878  0.92596640  1.46876201  0.05075657                        
6   0.55962744  0.50414270  1.09500224  0.56105050  0.55618658            
7  10.12013544  9.42013595  9.01900242 10.11916179 10.12575231  9.64782961
8   0.16499008  0.90836922  1.37468845  0.19676488  0.15709508  0.54103233
9   4.71001758  4.45904471  3.59703003  4.98851873  4.95705032  4.62909454
10  4.45035813  4.19905306  3.52404758  4.65492575  4.62925347  4.18062223
11  5.97578776  5.67229940  4.78906953  6.14446933  6.12675384  5.83549032
12  0.15614601  0.79991436  1.21697232  0.34280104  0.31011406  0.48137429
13  0.48052794  0.49544825  1.17893137  0.46997567  0.47070026  0.37516553
14  0.55677458  0.53880581  1.16170137  0.48589586  0.49425496  0.41583303
15  0.97426333  0.99815787  0.95524891  0.98343610  0.97972933  0.88956489
16  0.45067039  0.82199701  1.47160782  0.16225605  0.20213628  0.52758450
17  0.40802393  0.68921986  1.27368335  0.27268383  0.27854046  0.37074724
18  0.85282585  0.23577928  0.96727260  0.88066075  0.88337193  0.54733151
19  0.91871817  0.70098812  0.65654287  1.05216242  1.04043368  0.78669280
20  0.79388996  0.34424868  0.89084300  0.84070731  0.83836541  0.53700015
21  0.35277434  0.79048436  1.30781859  0.23628056  0.23998160  0.45653825
22  0.99845069  1.10448088  0.61429270  1.28802020  1.25176558  1.05866840
23  0.40035000  0.63131487  1.27427995  0.30960134  0.31567714  0.38553645
24  2.00713504  1.28394866  1.17117770  2.06033964  2.06201193  1.67960540
25  0.25127732  0.79536251  1.33421971  0.17858004  0.16077009  0.46256577
26  0.30151766  0.98110116  1.10288176  0.63349119  0.58898346  0.65893603
27  0.25148705  0.75840777  1.09469760  0.52043778  0.48447058  0.49685647
28  0.37974226  0.91089654  1.48526630  0.07736858  0.11398608  0.56755497
29  0.35710613  0.86567461  1.40033411  0.14204382  0.15461640  0.52755108
30  0.41922332  0.84651917  1.46467863  0.12185822  0.16228559  0.52218261
31  0.50066468  0.74875940  1.20164720  0.47479107  0.47904092  0.52041979
32  0.36557637  0.88157122  1.46977458  0.05077683  0.08917303  0.53599342
33  0.05050626  0.91179090  1.27684583  0.35729073  0.31386843  0.55268849
34  0.37678006  0.91957891  1.49000641  0.04560447  0.08732233  0.56147914
             7           8           9          10          11          12
2                                                                         
3                                                                         
4                                                                         
5                                                                         
6                                                                         
7                                                                         
8  10.11351742                                                            
9   8.46093540  4.82935067                                                
10  7.85485854  4.54090234  3.35723162                                    
11  6.98742987  6.03612994  3.02433638  4.93008803                        
12 10.00892721  0.18004581  4.65858034  4.43467879  5.88638759            
13  9.81485263  0.44398080  4.65015894  4.44958810  5.84539473  0.34932281
14  9.72738587  0.49232959  4.67579567  4.48136386  5.77121397  0.41757918
15  9.38760795  0.94688474  4.41296637  4.33511483  5.23301137  0.86373464
16 10.02792720  0.30414084  4.98489579  4.67750586  6.10527070  0.39038163
17  9.86822122  0.31314883  4.80607177  4.50525797  5.92944351  0.31422304
18  9.46414200  0.84404982  4.38322359  4.25433586  5.55837190  0.71342494
19  9.38781804  0.94866310  4.05814527  4.08349711  5.17783376  0.78744116
20  9.47535555  0.79485567  4.34745240  4.25759011  5.49197215  0.65506045
21  9.94122398  0.22708558  4.81619600  4.52215286  5.93976695  0.25600423
22  9.61395643  1.12391645  3.72057023  3.83316242  5.11894983  0.95875454
23  9.89785140  0.31738948  4.77189566  4.51889686  5.93614569  0.28362525
24  8.48795852  2.01835652  3.72012967  4.04355645  4.61468042  1.86979296
25 10.02570353  0.14036790  4.81720672  4.54498495  5.99940183  0.18589086
26 10.02770117  0.44453446  4.44101377  4.23712533  5.75221333  0.33910267
27  9.95954323  0.36184389  4.49378729  4.31479213  5.79070333  0.20157149
28 10.09341037  0.21772170  4.98632209  4.66592062  6.11836997  0.34940996
29 10.02383265  0.20589000  4.90661504  4.61369314  6.02251297  0.29824480
30 10.03708314  0.26618368  4.97898349  4.65400670  6.10313149  0.36802186
31  9.81900868  0.42209568  4.68086901  4.45156620  5.77576304  0.36648455
32 10.08128887  0.21306740  4.97351016  4.64871592  6.11859401  0.33820137
33 10.09732030  0.16428212  4.69044230  4.43313878  5.94708780  0.13372608
34 10.09584275  0.22020051  4.99642855  4.65947145  6.13127956  0.35934332
            13          14          15          16          17          18
2                                                                         
3                                                                         
4                                                                         
5                                                                         
6                                                                         
7                                                                         
8                                                                         
9                                                                         
10                                                                        
11                                                                        
12                                                                        
13                                                                        
14  0.18937759                                                            
15  0.84407977  0.69136697                                                
16  0.38835397  0.37920324  0.93309822                                    
17  0.27561444  0.24151247  0.79183887  0.21012430                        
18  0.42354195  0.44312631  0.84659816  0.78044211  0.64434174            
19  0.69623268  0.66731161  0.63064820  0.99682455  0.83997560  0.50361253
20  0.40161458  0.38532856  0.71998671  0.75151483  0.59116524  0.16822096
21  0.34916879  0.33076131  0.79885041  0.21650716  0.18693669  0.71437440
22  1.03446326  1.07903603  1.05425959  1.31095985  1.14506442  0.98675452
23  0.16653144  0.21069004  0.84376391  0.22871697  0.14078461  0.57271926
24  1.62648699  1.57870420  1.46129822  1.95300089  1.79979666  1.22629561
25  0.32484992  0.36469534  0.88865614  0.21106063  0.18704059  0.73528928
26  0.62878431  0.69792451  0.94611966  0.71746614  0.61747555  0.88898233
27  0.38834163  0.49006109  0.90062810  0.56028346  0.44355852  0.67459073
28  0.45816650  0.45816146  0.94724330  0.13020675  0.26423430  0.85917404
29  0.40910490  0.38880720  0.85439050  0.15141883  0.20537166  0.79892052
30  0.40930989  0.40236736  0.92985229  0.05606564  0.21302064  0.80361184
31  0.38349324  0.34247375  0.70299994  0.42173775  0.36655919  0.62130973
32  0.43242547  0.44104475  0.95383269  0.11464879  0.23358327  0.83946499
33  0.47364464  0.54481755  0.94708021  0.45266895  0.40566499  0.83701064
34  0.47298491  0.47314460  0.95805649  0.14249009  0.26234678  0.87643082
            19          20          21          22          23          24
2                                                                         
3                                                                         
4                                                                         
5                                                                         
6                                                                         
7                                                                         
8                                                                         
9                                                                         
10                                                                        
11                                                                        
12                                                                        
13                                                                        
14                                                                        
15                                                                        
16                                                                        
17                                                                        
18                                                                        
19                                                                        
20  0.43279432                                                            
21  0.83810485  0.67115514                                                
22  0.68994982  0.89364128  1.14957955                                    
23  0.79905748  0.54074159  0.20687622  1.11907392                        
24  1.18088657  1.23346202  1.87220399  1.55065527  1.76297487            
25  0.88941727  0.68712984  0.16155496  1.12243412  0.18467910  1.91445471
26  0.81260810  0.81222415  0.56213360  0.74332717  0.60823681  1.93960283
27  0.72385534  0.60713908  0.43884056  0.79106605  0.40153308  1.79244285
28  1.02296910  0.82240571  0.19376693  1.29567122  0.29424819  2.03263599
29  0.93707076  0.75074948  0.11769798  1.22214905  0.24806251  1.95609580
30  0.99931623  0.77200918  0.18843265  1.29937172  0.24440006  1.97767160
31  0.66840350  0.59119903  0.24676530  1.08431458  0.33306145  1.72693090
32  1.02025780  0.80128524  0.20502574  1.27998485  0.26904972  2.01739058
33  0.88686874  0.77907573  0.33283178  0.98309674  0.39514989  1.98747412
34  1.04453332  0.83614829  0.21825615  1.30103557  0.30844303  2.04891492
            25          26          27          28          29          30
2                                                                         
3                                                                         
4                                                                         
5                                                                         
6                                                                         
7                                                                         
8                                                                         
9                                                                         
10                                                                        
11                                                                        
12                                                                        
13                                                                        
14                                                                        
15                                                                        
16                                                                        
17                                                                        
18                                                                        
19                                                                        
20                                                                        
21                                                                        
22                                                                        
23                                                                        
24                                                                        
25                                                                        
26  0.50955508                                                            
27  0.35787607  0.26235069                                                
28  0.18749620  0.65276630  0.53858508                                    
29  0.14997016  0.60513553  0.48799609  0.09640133                        
30  0.19095246  0.68670606  0.54629349  0.08266523  0.11378879            
31  0.37422576  0.60866580  0.49963621  0.42003298  0.34977665  0.40977090
32  0.16203959  0.64428663  0.51648709  0.05933873  0.11271951  0.07416683
33  0.25236922  0.28432563  0.24563344  0.37955582  0.34984179  0.41954385
34  0.19260639  0.65383543  0.54225256  0.04922434  0.11754170  0.09578867
            31          32          33
2                                     
3                                     
4                                     
5                                     
6                                     
7                                     
8                                     
9                                     
10                                    
11                                    
12                                    
13                                    
14                                    
15                                    
16                                    
17                                    
18                                    
19                                    
20                                    
21                                    
22                                    
23                                    
24                                    
25                                    
26                                    
27                                    
28                                    
29                                    
30                                    
31                                    
32  0.44212098                        
33  0.46312888  0.37127007            
34  0.45510208  0.04495261  0.38146983
> 
> # Koefisien Korelasi Cophenetic
> distance_matrix <- dist(covid_data[,2:6])
> 
> # Single Linkage
> single_linkage <- hclust(distance_matrix, method = "single")
> 
> # Korelasi Cophenetic untuk Single Linkage
> cophenetic_single <- cophenetic(single_linkage)
> cor_single <- cor(distance_matrix, cophenetic_single)
> cor_single
[1] 0.9624486
> 
> # Average Linkage
> average_linkage <- hclust(distance_matrix, method = "average")
> 
> # Korelasi Cophenetic untuk Average Linkage
> cophenetic_average <- cophenetic(average_linkage)
> cor_average <- cor(distance_matrix, cophenetic_average)
> cor_average
[1] 0.9760807
> 
> # Complete Linkage
> complete_linkage <- hclust(distance_matrix, method = "complete")
> 
> # Korelasi Cophenetic untuk Complete Linkage
> cophenetic_complete <- cophenetic(complete_linkage)
> cor_complete <- cor(distance_matrix, cophenetic_complete)
> cor_complete
[1] 0.9629987
> 
> # Menyusun Dataframe Korelasi Cophenetic
> cophenetic_correlations <- data.frame(Single = cor_single, 
+                                       Average = cor_average,
+                                       Complete = cor_complete)
> cophenetic_correlations
     Single   Average  Complete
1 0.9624486 0.9760807 0.9629987
> 
> # Indeks Validitas
> validity_index <- clValid(standardized_data, 2:5, clMethods = "hierarchical", 
+                           validation = "internal", metric = "euclidean", 
+                           method = "average")
> summary(validity_index)

Clustering Methods:
 hierarchical 

Cluster sizes:
 2 3 4 5 

Validation Measures:
                                 2       3       4       5
                                                          
hierarchical Connectivity   2.9290  7.9659  9.7159 11.7159
             Dunn           1.1372  0.7148  1.1101  1.4667
             Silhouette     0.8187  0.7804  0.7614  0.7458

Optimal Scores:

             Score  Method       Clusters
Connectivity 2.9290 hierarchical 2       
Dunn         1.4667 hierarchical 5       
Silhouette   0.8187 hierarchical 2       
> optimalScores(validity_index)
                Score       Method Clusters
Connectivity 2.928968 hierarchical        2
Dunn         1.466692 hierarchical        5
Silhouette   0.818671 hierarchical        2
> plot(validity_index)

> 
> # Metode Average Linkage
> average_hclust <- hclust(dist(standardized_data), method = "average")
> average_hclust

Call:
hclust(d = dist(standardized_data), method = "average")

Cluster method   : average 
Distance         : euclidean 
Number of objects: 34 
> 
> # Cluster Dendogram
> plot(average_hclust, labels = covid_data$Provinsi, hang = 1, col = "blue",
+      main = "Cluster Dendogram", sub = " ", xlab = "Provinsi", ylab = "Jarak")

> 
> cluster_members <- data.frame(id = covid_data$Provinsi,
+                               cluster = cutree(average_hclust, k = 2))
> cluster_members
                    id cluster
1                 ACEH       1
2                 BALI       1
3               BANTEN       1
4      BANGKA BELITUNG       1
5             BENGKULU       1
6        DI YOGYAKARTA       1
7          DKI JAKARTA       2
8                JAMBI       1
9           JAWA BARAT       1
10         JAWA TENGAH       1
11          JAWA TIMUR       1
12    KALIMANTAN BARAT       1
13    KALIMANTAN TIMUR       1
14   KALIMANTAN TENGAH       1
15  KALIMANTAN SELATAN       1
16    KALIMANTAN UTARA       1
17      KEPULAUAN RIAU       1
18 NUSA TENGGARA BARAT       1
19    SUMATERA SELATAN       1
20      SUMATERA BARAT       1
21      SULAWESI UTARA       1
22      SUMATERA UTARA       1
23   SULAWESI TENGGARA       1
24    SULAWESI SELATAN       1
25     SULAWESI TENGAH       1
26             LAMPUNG       1
27                RIAU       1
28        MALUKU UTARA       1
29              MALUKU       1
30         PAPUA BARAT       1
31               PAPUA       1
32      SULAWESI BARAT       1
33 NUSA TENGGARA TIMUR       1
34           GORONTALO       1
> 
> hierarchical_clusters <- eclust(standardized_data, FUNcluster = "hclust", k = 2,
+                                 hc_method = "average", graph = TRUE)
> fviz_dend(hierarchical_clusters, rect = TRUE, cex = 0.5)

> 
> # Karakteristik Setiap Cluster
> cluster_ids <- hierarchical_clusters$cluster
> cluster_ids
 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 
 1  1  1  1  1  1  2  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1 
27 28 29 30 31 32 33 34 
 1  1  1  1  1  1  1  1 
> aggregate(covid_data, list(cluster_ids), mean)
  Group.1 Provinsi        X1         X2        X3        X4  X5
1       1       NA  7803.636   575.8364  576.7879  156.4242  32
2       2       NA 10558.000 15900.0000 7348.0000 2082.0000 517

3 HASIL DAN PEMBAHASAN

3.1 Statistik Deskriptif

Hasil :

> descriptive_stats <- summary(covid_data)
> descriptive_stats
   Provinsi               X1              X2                 X3        
 Length:34          Min.   :  743   Min.   :   10.00   Min.   :  20.0  
 Class :character   1st Qu.: 2269   1st Qu.:   74.25   1st Qu.: 129.2  
 Mode  :character   Median : 4044   Median :  107.00   Median : 240.0  
                    Mean   : 7885   Mean   : 1026.55   Mean   : 775.9  
                    3rd Qu.: 8079   3rd Qu.:  250.00   3rd Qu.: 665.2  
                    Max.   :49317   Max.   :15900.00   Max.   :7348.0  
       X4                X5        
 Min.   :   7.00   Min.   :  0.00  
 1st Qu.:  37.25   1st Qu.:  2.25  
 Median :  93.50   Median :  6.50  
 Mean   : 213.06   Mean   : 46.26  
 3rd Qu.: 233.75   3rd Qu.: 31.75  
 Max.   :2082.00   Max.   :517.00  

3.2 Uji Asumsi

3.2.1 Uji Kaiser-Mayer-Oikin (KMO)

Hipotesis :

\(H_0:\) Variabel-variabel dalam data tidak memiliki korelasi yang cukup untuk dilakukan analisis clustering.

\(H_1:\) Variabel-variabel dalam data memiliki korelasi yang cukup untuk dilakukan analisis clustering.

Hasil :

> kmo_result <- KMO(covid_data[,2:6])
> kmo_result
Kaiser-Meyer-Olkin factor adequacy
Call: KMO(r = covid_data[, 2:6])
Overall MSA =  0.71
MSA for each item = 
  X1   X2   X3   X4   X5 
0.79 0.91 0.64 0.70 0.68 

Keputusan :

\(KMO (0.71) ≥ 0.5\), maka tolak \(H_0\).

Interpretasi :

Maka, dengan taraf nyata 5% sudah dapat disimpulkan bahwa variabel-variabel dalam data tingkat kasus persebaran COVID-19 tanggal 31 Mei 2020 pada seluruh Provinsi di Indonesia memiliki korelasi yang cukup untuk dilakukan analisis clustering.

3.2.2 Uji Non-Multikolinearitas

Hipotesis :

\(H_0:\) Tidak ada multikolinieritas antar variabel.

\(H_1:\) Ada multikolinieritas antar variabel.

Hasil :

> cor_matrix <- cor(covid_data[,2:6], method = 'pearson')
> cor_matrix
          X1        X2        X3        X4        X5
X1 1.0000000 0.3406891 0.5269481 0.3887806 0.5333894
X2 0.3406891 1.0000000 0.7405335 0.8168637 0.6945522
X3 0.5269481 0.7405335 1.0000000 0.9325276 0.9884274
X4 0.3887806 0.8168637 0.9325276 1.0000000 0.8888751
X5 0.5333894 0.6945522 0.9884274 0.8888751 1.0000000

Keputusan :

\(matirks korelasi > 0.8\), maka tolak \(H_0\).

Interpretasi :

Maka, dengan taraf nyata 5% sudah dapat disimpulkan bahwa variabel-variabel dalam data tingkat kasus persebaran COVID-19 tanggal 31 Mei 2020 pada seluruh Provinsi di Indonesia memiliki multikolinieritas antar variabel namun variabel yang berkorelasi tinggi salingrelevan secara konseptual, sehingga keberadaannya tidak akan dihapus dan dilakukan standarisasi (mean = 0, standar deviasi = 1) untuk mengurangi pengaruh variabel dengan skala besar pada hasil clustering.

3.3 Jarak Euclidian

Hasil :

> euclidean_distance <- dist(standardized_data, method = "euclidean")
> euclidean_distance
             1           2           3           4           5           6
2   0.91975413                                                            
3   1.29947437  1.04722450                                                
4   0.34812099  0.92078554  1.49176552                                    
5   0.30216878  0.92596640  1.46876201  0.05075657                        
6   0.55962744  0.50414270  1.09500224  0.56105050  0.55618658            
7  10.12013544  9.42013595  9.01900242 10.11916179 10.12575231  9.64782961
8   0.16499008  0.90836922  1.37468845  0.19676488  0.15709508  0.54103233
9   4.71001758  4.45904471  3.59703003  4.98851873  4.95705032  4.62909454
10  4.45035813  4.19905306  3.52404758  4.65492575  4.62925347  4.18062223
11  5.97578776  5.67229940  4.78906953  6.14446933  6.12675384  5.83549032
12  0.15614601  0.79991436  1.21697232  0.34280104  0.31011406  0.48137429
13  0.48052794  0.49544825  1.17893137  0.46997567  0.47070026  0.37516553
14  0.55677458  0.53880581  1.16170137  0.48589586  0.49425496  0.41583303
15  0.97426333  0.99815787  0.95524891  0.98343610  0.97972933  0.88956489
16  0.45067039  0.82199701  1.47160782  0.16225605  0.20213628  0.52758450
17  0.40802393  0.68921986  1.27368335  0.27268383  0.27854046  0.37074724
18  0.85282585  0.23577928  0.96727260  0.88066075  0.88337193  0.54733151
19  0.91871817  0.70098812  0.65654287  1.05216242  1.04043368  0.78669280
20  0.79388996  0.34424868  0.89084300  0.84070731  0.83836541  0.53700015
21  0.35277434  0.79048436  1.30781859  0.23628056  0.23998160  0.45653825
22  0.99845069  1.10448088  0.61429270  1.28802020  1.25176558  1.05866840
23  0.40035000  0.63131487  1.27427995  0.30960134  0.31567714  0.38553645
24  2.00713504  1.28394866  1.17117770  2.06033964  2.06201193  1.67960540
25  0.25127732  0.79536251  1.33421971  0.17858004  0.16077009  0.46256577
26  0.30151766  0.98110116  1.10288176  0.63349119  0.58898346  0.65893603
27  0.25148705  0.75840777  1.09469760  0.52043778  0.48447058  0.49685647
28  0.37974226  0.91089654  1.48526630  0.07736858  0.11398608  0.56755497
29  0.35710613  0.86567461  1.40033411  0.14204382  0.15461640  0.52755108
30  0.41922332  0.84651917  1.46467863  0.12185822  0.16228559  0.52218261
31  0.50066468  0.74875940  1.20164720  0.47479107  0.47904092  0.52041979
32  0.36557637  0.88157122  1.46977458  0.05077683  0.08917303  0.53599342
33  0.05050626  0.91179090  1.27684583  0.35729073  0.31386843  0.55268849
34  0.37678006  0.91957891  1.49000641  0.04560447  0.08732233  0.56147914
             7           8           9          10          11          12
2                                                                         
3                                                                         
4                                                                         
5                                                                         
6                                                                         
7                                                                         
8  10.11351742                                                            
9   8.46093540  4.82935067                                                
10  7.85485854  4.54090234  3.35723162                                    
11  6.98742987  6.03612994  3.02433638  4.93008803                        
12 10.00892721  0.18004581  4.65858034  4.43467879  5.88638759            
13  9.81485263  0.44398080  4.65015894  4.44958810  5.84539473  0.34932281
14  9.72738587  0.49232959  4.67579567  4.48136386  5.77121397  0.41757918
15  9.38760795  0.94688474  4.41296637  4.33511483  5.23301137  0.86373464
16 10.02792720  0.30414084  4.98489579  4.67750586  6.10527070  0.39038163
17  9.86822122  0.31314883  4.80607177  4.50525797  5.92944351  0.31422304
18  9.46414200  0.84404982  4.38322359  4.25433586  5.55837190  0.71342494
19  9.38781804  0.94866310  4.05814527  4.08349711  5.17783376  0.78744116
20  9.47535555  0.79485567  4.34745240  4.25759011  5.49197215  0.65506045
21  9.94122398  0.22708558  4.81619600  4.52215286  5.93976695  0.25600423
22  9.61395643  1.12391645  3.72057023  3.83316242  5.11894983  0.95875454
23  9.89785140  0.31738948  4.77189566  4.51889686  5.93614569  0.28362525
24  8.48795852  2.01835652  3.72012967  4.04355645  4.61468042  1.86979296
25 10.02570353  0.14036790  4.81720672  4.54498495  5.99940183  0.18589086
26 10.02770117  0.44453446  4.44101377  4.23712533  5.75221333  0.33910267
27  9.95954323  0.36184389  4.49378729  4.31479213  5.79070333  0.20157149
28 10.09341037  0.21772170  4.98632209  4.66592062  6.11836997  0.34940996
29 10.02383265  0.20589000  4.90661504  4.61369314  6.02251297  0.29824480
30 10.03708314  0.26618368  4.97898349  4.65400670  6.10313149  0.36802186
31  9.81900868  0.42209568  4.68086901  4.45156620  5.77576304  0.36648455
32 10.08128887  0.21306740  4.97351016  4.64871592  6.11859401  0.33820137
33 10.09732030  0.16428212  4.69044230  4.43313878  5.94708780  0.13372608
34 10.09584275  0.22020051  4.99642855  4.65947145  6.13127956  0.35934332
            13          14          15          16          17          18
2                                                                         
3                                                                         
4                                                                         
5                                                                         
6                                                                         
7                                                                         
8                                                                         
9                                                                         
10                                                                        
11                                                                        
12                                                                        
13                                                                        
14  0.18937759                                                            
15  0.84407977  0.69136697                                                
16  0.38835397  0.37920324  0.93309822                                    
17  0.27561444  0.24151247  0.79183887  0.21012430                        
18  0.42354195  0.44312631  0.84659816  0.78044211  0.64434174            
19  0.69623268  0.66731161  0.63064820  0.99682455  0.83997560  0.50361253
20  0.40161458  0.38532856  0.71998671  0.75151483  0.59116524  0.16822096
21  0.34916879  0.33076131  0.79885041  0.21650716  0.18693669  0.71437440
22  1.03446326  1.07903603  1.05425959  1.31095985  1.14506442  0.98675452
23  0.16653144  0.21069004  0.84376391  0.22871697  0.14078461  0.57271926
24  1.62648699  1.57870420  1.46129822  1.95300089  1.79979666  1.22629561
25  0.32484992  0.36469534  0.88865614  0.21106063  0.18704059  0.73528928
26  0.62878431  0.69792451  0.94611966  0.71746614  0.61747555  0.88898233
27  0.38834163  0.49006109  0.90062810  0.56028346  0.44355852  0.67459073
28  0.45816650  0.45816146  0.94724330  0.13020675  0.26423430  0.85917404
29  0.40910490  0.38880720  0.85439050  0.15141883  0.20537166  0.79892052
30  0.40930989  0.40236736  0.92985229  0.05606564  0.21302064  0.80361184
31  0.38349324  0.34247375  0.70299994  0.42173775  0.36655919  0.62130973
32  0.43242547  0.44104475  0.95383269  0.11464879  0.23358327  0.83946499
33  0.47364464  0.54481755  0.94708021  0.45266895  0.40566499  0.83701064
34  0.47298491  0.47314460  0.95805649  0.14249009  0.26234678  0.87643082
            19          20          21          22          23          24
2                                                                         
3                                                                         
4                                                                         
5                                                                         
6                                                                         
7                                                                         
8                                                                         
9                                                                         
10                                                                        
11                                                                        
12                                                                        
13                                                                        
14                                                                        
15                                                                        
16                                                                        
17                                                                        
18                                                                        
19                                                                        
20  0.43279432                                                            
21  0.83810485  0.67115514                                                
22  0.68994982  0.89364128  1.14957955                                    
23  0.79905748  0.54074159  0.20687622  1.11907392                        
24  1.18088657  1.23346202  1.87220399  1.55065527  1.76297487            
25  0.88941727  0.68712984  0.16155496  1.12243412  0.18467910  1.91445471
26  0.81260810  0.81222415  0.56213360  0.74332717  0.60823681  1.93960283
27  0.72385534  0.60713908  0.43884056  0.79106605  0.40153308  1.79244285
28  1.02296910  0.82240571  0.19376693  1.29567122  0.29424819  2.03263599
29  0.93707076  0.75074948  0.11769798  1.22214905  0.24806251  1.95609580
30  0.99931623  0.77200918  0.18843265  1.29937172  0.24440006  1.97767160
31  0.66840350  0.59119903  0.24676530  1.08431458  0.33306145  1.72693090
32  1.02025780  0.80128524  0.20502574  1.27998485  0.26904972  2.01739058
33  0.88686874  0.77907573  0.33283178  0.98309674  0.39514989  1.98747412
34  1.04453332  0.83614829  0.21825615  1.30103557  0.30844303  2.04891492
            25          26          27          28          29          30
2                                                                         
3                                                                         
4                                                                         
5                                                                         
6                                                                         
7                                                                         
8                                                                         
9                                                                         
10                                                                        
11                                                                        
12                                                                        
13                                                                        
14                                                                        
15                                                                        
16                                                                        
17                                                                        
18                                                                        
19                                                                        
20                                                                        
21                                                                        
22                                                                        
23                                                                        
24                                                                        
25                                                                        
26  0.50955508                                                            
27  0.35787607  0.26235069                                                
28  0.18749620  0.65276630  0.53858508                                    
29  0.14997016  0.60513553  0.48799609  0.09640133                        
30  0.19095246  0.68670606  0.54629349  0.08266523  0.11378879            
31  0.37422576  0.60866580  0.49963621  0.42003298  0.34977665  0.40977090
32  0.16203959  0.64428663  0.51648709  0.05933873  0.11271951  0.07416683
33  0.25236922  0.28432563  0.24563344  0.37955582  0.34984179  0.41954385
34  0.19260639  0.65383543  0.54225256  0.04922434  0.11754170  0.09578867
            31          32          33
2                                     
3                                     
4                                     
5                                     
6                                     
7                                     
8                                     
9                                     
10                                    
11                                    
12                                    
13                                    
14                                    
15                                    
16                                    
17                                    
18                                    
19                                    
20                                    
21                                    
22                                    
23                                    
24                                    
25                                    
26                                    
27                                    
28                                    
29                                    
30                                    
31                                    
32  0.44212098                        
33  0.46312888  0.37127007            
34  0.45510208  0.04495261  0.38146983

Interpretasi :

Hasil jarak Euclidean yang terlihat pada tabel adalah matriks jarak antar provinsi berdasarkan data COVID-19 yang menunjukkan hubungan kemiripan untuk menentukan anggota dalam cluster, dimana semakin kecil jarak antar provinsi, semakin besar kemungkinan mereka akan digabungkan dalam satu kluster. Sebaliknya, provinsi dengan jarak besar lebih mungkin berada di kluster yang berbeda.

3.4 Koefisien Korelasi Cophenetic

Hasil :

> cophenetic_correlations <- data.frame(Single = cor_single, 
+                                       Average = cor_average,
+                                       Complete = cor_complete)
> cophenetic_correlations
     Single   Average  Complete
1 0.9624486 0.9760807 0.9629987

Interpretasi :

Koefisien korelasi cophenetic digunakan untuk acuan dalam menentukan metode clustering yang paling sesuai, dimana metode yang memiliki nilai korelasi mendekati 1 dianggap sebagai pilihan metode terbaik untuk analisis. Berdasarkan hasil output yang diperoleh, metode dengan nilai korelasi paling mendekati 1 adalah average linkage (0.976). Oleh karena itu, metode average linkage dipilih sebagai metode terbaik.

3.5 Indeks Validitas

Hasil :

> validity_index <- clValid(standardized_data, 2:5, clMethods = "hierarchical", 
+                           validation = "internal", metric = "euclidean", 
+                           method = "average")
> summary(validity_index)

Clustering Methods:
 hierarchical 

Cluster sizes:
 2 3 4 5 

Validation Measures:
                                 2       3       4       5
                                                          
hierarchical Connectivity   2.9290  7.9659  9.7159 11.7159
             Dunn           1.1372  0.7148  1.1101  1.4667
             Silhouette     0.8187  0.7804  0.7614  0.7458

Optimal Scores:

             Score  Method       Clusters
Connectivity 2.9290 hierarchical 2       
Dunn         1.4667 hierarchical 5       
Silhouette   0.8187 hierarchical 2       
> optimalScores(validity_index)
                Score       Method Clusters
Connectivity 2.928968 hierarchical        2
Dunn         1.466692 hierarchical        5
Silhouette   0.818671 hierarchical        2
> plot(validity_index)

Interpretasi :

Grafik menunjukkan bahwa nilai konektivitas meningkat seiring bertambahnya jumlah kluster. Karena konektivitas lebih baik jika nilainya rendah, maka jumlah kluster yang lebih kecil (2 kluster) memberikan hasil yang lebih optimal dibandingkan jumlah kluster yang lebih besar. Sedangkan nilai indeks Dunn tertinggi muncul saat jumlah kluster adalah 5. Indeks Dunn mengukur rasio antara jarak minimum antar kluster dan ukuran maksimum dalam kluster; nilai yang lebih tinggi menunjukkan kluster yang lebih terpisah dan lebih kompak. Lalu, pada indeks Silhouette nilai tertinggi (0,82) diperoleh saat jumlah kluster adalah 2, yang menunjukkan bahwa kluster lebih kompak dan terpisah dengan baik pada jumlah kluster ini.

Dari ketiga indeks validitas, terdapat perbedaan rekomendasi. Namun, mengingat indeks konektivitas dan Silhouette sama-sama menunjukkan hasil terbaik pada 2 kluster, sementara indeks Dunn optimal pada 5 kluster, jumlah kluster 2 dapat dianggap sebagai pilihan yang lebih optimal karena didukung oleh dua indeks yang menilai kompaksi dan keterpisahan kluster dengan lebih baik.

3.6 Metode Average Linkage

Hasil :

> average_hclust <- hclust(dist(standardized_data), method = "average")
> average_hclust

Call:
hclust(d = dist(standardized_data), method = "average")

Cluster method   : average 
Distance         : euclidean 
Number of objects: 34 

Interpretasi :

Berdasarkan hasil output di atas, dapat disimpulkan bahwa pada analisis clustering digunakan metode average linkage dengan perhitungan jarak antar 34 provinsi menggunakan jarak euclidean.

3.7 Cluster Dendogram

Hasil :

> plot(average_hclust, labels = covid_data$Provinsi, hang = 1, col = "blue",
+      main = "Cluster Dendogram", sub = " ", xlab = "Provinsi", ylab = "Jarak")

> 
> cluster_members <- data.frame(id = covid_data$Provinsi,
+                               cluster = cutree(average_hclust, k = 2))
> cluster_members
                    id cluster
1                 ACEH       1
2                 BALI       1
3               BANTEN       1
4      BANGKA BELITUNG       1
5             BENGKULU       1
6        DI YOGYAKARTA       1
7          DKI JAKARTA       2
8                JAMBI       1
9           JAWA BARAT       1
10         JAWA TENGAH       1
11          JAWA TIMUR       1
12    KALIMANTAN BARAT       1
13    KALIMANTAN TIMUR       1
14   KALIMANTAN TENGAH       1
15  KALIMANTAN SELATAN       1
16    KALIMANTAN UTARA       1
17      KEPULAUAN RIAU       1
18 NUSA TENGGARA BARAT       1
19    SUMATERA SELATAN       1
20      SUMATERA BARAT       1
21      SULAWESI UTARA       1
22      SUMATERA UTARA       1
23   SULAWESI TENGGARA       1
24    SULAWESI SELATAN       1
25     SULAWESI TENGAH       1
26             LAMPUNG       1
27                RIAU       1
28        MALUKU UTARA       1
29              MALUKU       1
30         PAPUA BARAT       1
31               PAPUA       1
32      SULAWESI BARAT       1
33 NUSA TENGGARA TIMUR       1
34           GORONTALO       1
> 
> hierarchical_clusters <- eclust(standardized_data, FUNcluster = "hclust", k = 2,
+                                 hc_method = "average", graph = TRUE)
> fviz_dend(hierarchical_clusters, rect = TRUE, cex = 0.5)

Interpretasi :

Berdasarkan hasil output di atas, dapat disimpulkan bahwa data dibagi menjadi 2 cluster yaitu: Cluster 1 terdiri dari provinsi Sulawesi Selatan, Banten, Sumatera Utara, Kalimantan Selatan, Lampung, Riau, DI Yogyakarta, Papua, Kepulauan Riau, Sulawesi Tenggara, Kalimantan Timur, Kalimantan Tengah, Maluku, Kalimantan Utara, Papua Barat, Bengkulu, Maluku Utara, Bangka Belitung, Sulawesi Barat, Gorontalo, Jambi, Sulawesi Tengah, Kalimantan Barat, Aceh, Nusa Tenggara Timur, Sumatera Selatan, Bali, Nusa Tenggara Barat, Sumatera Barat, Jawa Tengah, Jawa Barat, dan Jawa Timur. Cluster 2 terdiri dari DKI Jakarta.

3.8 Karakteristik Setiap Cluster

Hasil :

> cluster_ids <- hierarchical_clusters$cluster
> cluster_ids
 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 
 1  1  1  1  1  1  2  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1 
27 28 29 30 31 32 33 34 
 1  1  1  1  1  1  1  1 
> aggregate(covid_data, list(cluster_ids), mean)
  Group.1 Provinsi        X1         X2        X3        X4  X5
1       1       NA  7803.636   575.8364  576.7879  156.4242  32
2       2       NA 10558.000 15900.0000 7348.0000 2082.0000 517

Interpretasi :

Berdasarkan hasil output di atas, dapat dilihat bahwa keseluruhan rata-rata jumlah penduduk \((X_1)\), rata-rata kepadatan penduduk \((X_2)\), rata-rata kasus COVID-19 yang positif \((X_3)\), rata-rata kasus COVID-19 yang sembuh \((X_4)\), dan rata-rata kasus COVID-19 yang meninggal \((X_5)\) pada cluster 2 yaitu Provinsi DKI Jakarta memiliki nilai yang lebih tinggi daripada hasil pada cluster 1 yaitu provinsi-provinsi lain di Indonesia.

4 PENUTUP

4.1 Kesimpulan

Berdasarkan penelitian tentang tingkat kasus persebaran COVID-19 menggunakan analisis cluster hierarki, diperoleh kesimpulan bahwa Provinsi DKI Jakarta memiliki kondisi karakteristik yang berbeda dibandingkan provinsi lain. Hasil analisis menunjukkan bahwa DKI Jakarta mendominasi dalam tingkat persebaran kasus COVID-19, yang terlihat dari nilai variabel-variabel utama yang secara signifikan lebih tinggi dibandingkan dengan rata-rata provinsi lainnya. Perbedaan ini disebabkan oleh beberapa faktor, seperti tingginya jumlah penduduk dan kepadatan penduduk,yang menjadikannya wilayah dengan risiko penularan virus yang lebih tinggi.

Selain itu, hasil analisis ini juga menegaskan bahwa DKI Jakarta membutuhkan perhatian khusus dalam pengendalian pandemi. Strategi penanganan yang diterapkan di wilayah ini harus difokuskan pada pengelolaan tingkat mobilitas penduduk, peningkatan kesadaran masyarakat akan pentingnya protokol kesehatan, serta percepatan program vaksinasi. Dengan demikian, analisis cluster hierarki ini memberikan pemahaman yang lebih mendalam tentang pola persebaran COVID-19 di Indonesia dan dapat menjadi acuan penting dalam menentukan langkah-langkah mitigasi yang lebih efektif.

4.2 Saran

Berdasarkan hasil penelitian, disarankan untuk meningkatkan penyajian informasi dengan menambahkan elemen grafis agar pembaca lebih mudah memahami pembahasan yang disampaikan. Selain itu, pengumpulan data yang lebih lengkap dan terbaru perlu dilakukan untuk meningkatkan akurasi dalam pemetaan kelompok kasus COVID-19 dan merancang metode klasifikasi yang lebih tepat. Penelitian ini juga dapat diperluas dengan melibatkan metode analisis prediktif guna memproyeksikan perkembangan kasus COVID-19 di setiap provinsi secara lebih akurat. Untuk mendukung analisis, disarankan menggunakan aplikasi yang lebih modern dan canggih dalam proses clustering, sehingga memungkinkan visualisasi berupa peta distribusi kasus COVID-19 di setiap provinsi Indonesia.

Edukasi kepada masyarakat juga sangat penting, terutama dalam meningkatkan kesadaran untuk menjaga kebersihan, kesehatan, dan mematuhi protokol pemerintah, khususnya di wilayah dengan tingkat kepadatan penduduk dan risiko penyebaran COVID-19 yang tinggi. Di sisi lain, pemerintah diharapkan meningkatkan pengawasan dan penyediaan fasilitas yang memadai, seperti membentuk tim khusus untuk menangani dan mencegah penyebaran virus. Langkah ini harus didukung dengan stabilitas harga kebutuhan pokok agar masyarakat tidak terbebani secara ekonomi selama pandemi berlangsung.

4.3 Daftar Pustaka

Akbar, D. A. R., & Lusia, D. A. (2022). Perbandingan Jarak Euclidean Dan Manhattan Pada Analisis Cluster Hierarki Dan K-Means. Sarjana thesis, Universitas Brawijaya.

Amaliyah, R., & Wibawati, S. (2012). Data feasibility testing using the Kaiser Meyer Olkin (KMO) test. Jurnal Penelitian.

Fitriadi, A., & Kurniawati, D. (2020). K-Means clustering method for employee performance data. Jurnal Manajemen.

Ghozali, I. 2016. Aplikasi Analisis Multivariete Dengan Program IBM SPSS 23. Edisi 8. Semarang: Badan Penerbit Universitas Diponegoro.

Korytkowski, M. (2015). A new validity index for crisp clusters: STR index. Pattern Analysis and Applications, 18(4), 827-835.

Luna-Romera, J. M., Martínez-Ballesteros, M. del M., García-Gutiérrez, J., & Riquelme-Santos, J. C. (2020). An Approach to Silhouette and Dunn Clustering Indices Applied to Big Data in Spark. Journal of Computer Science and Technology, 35(4), 703-718.

Muchson, M. (2017). Statistik Deskriptif. Bogor: Guepedia.

Muthiah, M., & Rosmaini. (2023). Analisis Cluster Hierarki. Indonesian Journal of Multidisciplinary.

Pande, S., Kumar, A., & Singh, R. (2012). Cluster Analysis in Data Mining: A Review. International Journal of Computer Applications.

Putera, A., Retnawati, H., & Nurdin, M. (2021). Cluster analysis of average linkage method. Numerical: Jurnal Matematika dan Pendidikan Matematika.

Ridwan, M., & Retnawati, H. (2021). Multicollinearity testing in cluster analysis. Jurnal Statistika.

Riquelme-Santos, J. C., Martínez-Ballesteros, M. del M., & Luna-Romera, J. M. (2015). A new validity index for crisp clusters. Pattern Analysis and Applications, 18(4), 827-835.

Saha, S., & Bandyopadhyay, S. (2012). Some connectivity based cluster validity indices. Applied Soft Computing, 12(3), 1555-1565.

Sukmawati. (2017). Analisis Cluster dengan Metode Hierarki. UIN Sumatera Utara.