1 PENDAHULUAN
1.1 Latar Belakang
Pandemi COVID-19 telah memberikan dampak yang signifikan terhadap kesehatan global sejak pertama kali terdeteksi. Dipengaruhi oleh berbagai faktor seperti kepadatan penduduk, mobilitas masyarakat, dan karakteristik lingkungan,dengan tingkat penyebaran yang berbeda-beda di berbagai wilayah. Memahami pola penyebaran kasus COVID-19 sangat penting bagi pemerintah dan organisasi kesehatan untuk membuat keputusan yang tepat, termasuk alokasi sumber daya dan strategi respons. Salah satu pendekatan yang dapat digunakan untuk menganalisis persebaran kasus COVID-19 adalah melalui teknik Analisis Cluster, yang memungkinkan pengelompokan wilayah berdasarkan kesamaan tingkat kasus dan pola penyebarannya.
Analisis Cluster adalah teknik analisis data yang mengeksplor kelompok-kelompok yang terbentuk dalam suatu kumpulan data yang disebut dengan cluster. Tujuan utamanya adalah mengklasifikasikan objek-objek sedemikian rupa sehingga objek yang memiliki kesamaan yang paling tinggi dengan objek lain ditempatkan dalam satu cluster yang sama. Salah satu metode populer dalam analisis klaster adalah metode K-Means. Namun, metode ini memiliki keterbatasan karena sangat sensitif terhadap data pencilan (outliers) dan bergantung pada rata-rata sebagai pusat klaster, yang dapat mengurangi akurasi jika data mengandung nilai ekstrem. Untuk mengatasi kelemahan tersebut, metode K-Medoid dikembangkan sebagai alternatif yang lebih kuat.
K-Medoid, sering disebut juga sebagai metode PAM (Partitioning Around Medoids), mirip dengan K-Means, tetapi memiliki perbedaan utama dalam cara pemilihan pusat klaster atau āmedoiā. K-Medoid memilih titik dalam data yang paling representatif sebagai pusat klaster. Pendekatan ini membuat K-Medoid lebih tahan terhadap outliers, karena medoid adalah titik data nyata yang dipilih berdasarkan minimisasi jarak total dalam satu klaster, sehingga lebih mampu menangani distribusi data yang tidak beraturan. Kelebihan utama dari metode K-Medoid ini membuatnya banyak digunakan dalam situasi di mana data memiliki distribusi yang tidak simetris atau terdapat nilai ekstrem yang dapat mengganggu hasil analisis. Selain itu, metode ini juga lebih relevan dalam aplikasi yang membutuhkan representasi nyata dari data, seperti dalam rekomendasi produk atau penentuan segmen pelanggan, di mana hasil klaster seringkali diharapkan merepresentasikan titik data nyata dalam kumpulan data tersebut.
1.2 Tinjauan Pustaka
1.2.1 COVID-19
Covid-19 adalah penyakit menular yang disebabkan oleh virus SARS-CoV-2, yang mulai menyebar secara global sejak akhir 2019. Penyakit ini telah mempengaruhi kesehatan masyarakat dan ekonomi di seluruh dunia, dengan persebaran kasus yang bervariasi di berbagai wilayah. Sebagian orang yang terinveksi virus ini akan mangalami gangguan pernapasan ringan hingga sedang dan sembuh tanpa perawatan intensif. Namun, sebagian orang harus menjalani perawatan intensif dikarenakan mengalami sakit parah seperti lansia dan orang yang memiliki penyakit tertentu seperti penyakit jantung, diabetes, gangguan pernapasan akut, atau kanker. Siapa pun dapat terinfeksi COVID-19 dan mengalami sakit parah atau bahkan meninggal pada usia berapa pun. Cara terbaik untuk mencegah dan memperlambat penularan adalah dengan memiliki informasi yang cukup tentang penyakit ini dan cara penyebaran virus. Virus dapat menyebar dari mulut atau hidung orang yang terinfeksi melalui partikel cair kecil saat mereka batuk, bersin, berbicara, bernyanyi, atau bernapas. Partikel ini berkisar dari tetesan pernapasan yang lebih besar hingga aerosol yang lebih kecil. Penting untuk menjaga etika pernapasan, seperti menutup mulut dengan siku saat batuk, dan tetap di rumah untuk isolasi diri hingga pulih jika merasa tidak enak badan.
1.2.2 Analisis Cluster
Analisis cluster merupakan salah satu metode analisis multivariat yang bertujuan untuk mengelompokkan objek berdasarkan kemiripan dan ketidakmiripan karakteristiknya, sehingga objek yang terletak pada suatu cluster memiliki kesamaan yang tinggi antar anggota dalam satu cluster dan perbedaan yang tinggi antar cluster yang satu dengan yang lain. Cluster-cluster yang terbentuk dalam satu cluster mempunyai ciri yang relatif sama (homogen), sedangkan antar cluster mempunyari ciri yang berbeda (heterogen). Pengelompokan ini dilakukan berdasarkan variabel-variabel yang diamati. Untuk mendapatkan kelompok yang sehomogen mungkin, maka yang digunakan dasar untuk mengelompokan adalah kesamaan skor nilai yang dianalisis. Semakin kecil besaran jarak suatu individu terhadap individu lain, maka semakin besar kemiripan individu tersebut. Data mengenai ukuran kesamaan tersebut kemudian dilakukan pengelompokan sehingga dapat ditentukan individu mana yang masuk kelompok mana
1.2.3 Metode K-Medoid
Metode K-medoids atau sering disebut juga PAM (Partitioning Around Medoids) merupakan salah satu metode partisi yang digunakan untuk mengelompokkan sekumpulan n objek ke dalam k klaster. Metode pengklasteran ini menggunakan medoid sebagai pusat klasternya. Medoid merupakan objek yang letaknya terpusat di dalam suatu klaster. Keunggulan dari metode ini adalah kekuatannya, yaitu tidak terpengaruh terhadap adanya data pencilan ataupun data ekstrem. K-Medoids bekerja melalui dua langkah utama dalam setiap iterasinya: pemilihan medoid awal dan perhitungan kembali medoid hingga stabil atau mencapai jumlah iterasi yang telah ditetapkan. Dengan karakteristik yang dimilikinya, K-Medoids adalah pilihan yang cocok untuk klasterisasi pada data yang cenderung mengandung nilai ekstrem atau pencilan, serta data yang distribusinya tidak selalu simetris.
1.3 Cuplikan Data
| Provinsi (Y) | Jumlah Penduduk (X1) | Kepadatan Penduduk (X2) | Terkonfirmasi (X3) | Sembuh (X4) | Meninggal (X5) |
|---|---|---|---|---|---|
| Aceh | 5.334,90 | 98 | 79 | 52 | 2 |
| Sumatera Utara | 14.970,50 | 215 | 1467 | 992 | 91 |
| Sumatera Barat | 5.597,30 | 139 | 725 | 107 | 31 |
| Riau | 6.466,80 | 75 | 224 | 75 | 10 |
| Kep. Riau | 2.089,90 | 76 | 117 | 48 | 0 |
| Jambi | 3.586,40 | 102 | 2000 | 965 | 81 |
| Sumatera Selatan | 8.548,60 | 105 | 125 | 26 | 10 |
| Kep. Bangka Belitung | 1.471,80 | 281 | 188 | 28 | 12 |
| Bengkulu | 2.032,40 | 92 | 149 | 16 | 2 |
| Lampung | 4.438,60 | 264 | 293 | 44 | 16 |
| DKI Jakarta | 10.605,40 | 16.165 | 11114 | 4624 | 625 |
| Jawa Barat | 48.738,80 | 1.359 | 3091 | 1396 | 175 |
| Banten | 12.023,00 | 1.104 | 3482 | 2266 | 150 |
| Jawa Tengah | 36.811,10 | 1.186 | 306 | 38 | 8 |
| DI Yogyakarta | 3.687,80 | 870 | 11508 | 6957 | 831 |
| Jawa Timur | 40.921,10 | 1.329 | 1438 | 731 | 79 |
| Kalimantan Barat | 5.474,70 | 793 | 1414 | 630 | 13 |
| Kalimantan Tengah | 2.700,10 | 287 | 1199 | 344 | 53 |
| Kalimantan Selatan | 4.116,90 | 122 | 113 | 72 | 1 |
| Kalimantan Timur | 3.803,50 | 39 | 321 | 58 | 4 |
| Kalimantan Utara | 710 | 18 | 834 | 446 | 53 |
| Sulawesi Utara | 2.639,50 | 115 | 3003 | 2098 | 182 |
| Gorontalo | 1.183,50 | 32 | 503 | 121 | 7 |
| Sulawesi Tengah | 3.015,00 | 11 | 201 | 45 | 2 |
| Sulawesi Selatan | 9.156,90 | 186 | 1057 | 809 | 76 |
| Sulawesi Barat | 1.436,70 | 51 | 186 | 28 | 5 |
| Sulawesi Tenggara | 2.659,90 | 209 | 4807 | 2926 | 163 |
| Bali | 4.343,40 | 77 | 343 | 116 | 6 |
| Nusa Tenggara Barat | 5.387,20 | 102 | 243 | 40 | 8 |
| Nusa Tenggara Timur | 5.394,40 | 91 | 114 | 29 | 2 |
| Maluku | 1.869,50 | 42 | 711 | 466 | 15 |
| Maluku Utara | 1.299,60 | 41 | 719 | 585 | 31 |
| Papua Barat | 1.149,40 | 12 | 236 | 81 | 3 |
| Papua | 4.356,80 | 15 | 1696 | 1057 | 7 |
Sumber:
1.4 Latar Belakang Kasus
Dalam penelitian ini akan dianalisis menggunakan metode K-Medoid clustering pengelompokkan provinsi-provinsi di Indonesia berdasarkan karakteristik persebaran COVID-19 pada tahun 2022. Dengan menganalisis lima variabel yaitu jumlah penduduk, kepadatan penduduk, jumlah kasus yang terkonfirmasi, sembuh, dan meninggal di masing-masing provinsi, diharapkan hasil clustering ini dapat menggambarkan mengenai pola persebaran COVID-19 di Indonesia pada tahun 2022.
1.5 Latar Belakang Metode
Penelitian ini menggunakan Metode Cluster dengan K-Medoid untuk mengelompokkan provinsi-provindi di Indonesia berdasarkan karakteristik penyebaran COVID-19 pada tahun 2022. Pada data terdapat outlier sehingga metode K-Medoid dipilih karena metode ini menggunakan titik data asli sebagai pusat cluster sehingga lebih tahan terhadap data yang memiliki outlier.
1.6 Tujuan
Menerapkan metode K-Medoid pada penyebaran kasus COVID-19 di tahun 2022
Mengidentifikasi kelompok Provinsi berdasarkan data penyebaran COVID-19.
Membedakan karakteristik setiap cluster.
2 SOURCE CODE
2.1 LIbrary
> library(psych)
> library(clValid)
> library(ggplot2)
> library(cluster)
> library(factoextra)
> library(tidyverse)
> library(car)
> library(openxlsx) Kegunaan masing-masing library
psych : Untuk melakukan uji asumsi
clValid : Untuk validasi metode clustering.
ggplot2 : Untuk visualisasi data.
cluster : Untuk metode clustering.
factoextra : Untuk visualisasi hasil analisis multivariat.
tidyverse : Untuk manipulasi dan analisis data.
car : Untuk diagnostik model regresi.
openxlsx : Untuk membuka data Excel ke R.
2.2 Impor Data
> library(openxlsx)
> data <- read.xlsx("/Users/naylaalma/Downloads/covidcluster.xlsx")
> data<-data.frame(data)
> data
Provinsi Jumlah.Penduduk Kepadatan.Penduduk Terkonfirmasi Sembuh
1 Aceh 5334.9 98 79 52
2 Sumatera Utara 14970.5 215 1467 992
3 Sumatera Barat 5597.3 139 725 107
4 Riau 6466.8 75 224 75
5 Kep. Riau 2089.9 76 117 48
6 Jambi 3586.4 102 2000 965
7 Sumatera Selatan 8548.6 105 125 26
8 Kep. Bangka Belitung 1471.8 281 188 28
9 Bengkulu 2032.4 92 149 16
10 Lampung 4438.6 264 293 44
11 DKI Jakarta 10605.4 16165 11114 4624
12 Jawa Barat 48738.8 1359 3091 1396
13 Banten 12023.0 1104 3482 2266
14 Jawa Tengah 36811.1 1186 306 38
15 DI Yogyakarta 3687.8 870 11508 6957
16 Jawa Timur 40921.1 1329 1438 731
17 Kalimantan Barat 5474.7 793 1414 630
18 Kalimantan Tengah 2700.1 287 1199 344
19 Kalimantan Selatan 4116.9 122 113 72
20 Kalimantan Timur 3803.5 39 321 58
21 Kalimantan Utara 710.0 18 834 446
22 Sulawesi Utara 2639.5 115 3003 2098
23 Gorontalo 1183.5 32 503 121
24 Sulawesi Tengah 3015.0 11 201 45
25 Sulawesi Selatan 9156.9 186 1057 809
26 Sulawesi Barat 1436.7 51 186 28
27 Sulawesi Tenggara 2659.9 209 4807 2926
28 Bali 4343.4 77 343 116
29 Nusa Tenggara Barat 5387.2 102 243 40
30 Nusa Tenggara Timur 5394.4 91 114 29
31 Maluku 1869.5 42 711 466
32 Maluku Utara 1299.6 41 719 585
33 Papua Barat 1149.4 12 236 81
34 Papua 4356.8 15 1696 1057
Meninggal
1 2
2 91
3 31
4 10
5 0
6 81
7 10
8 12
9 2
10 16
11 625
12 175
13 150
14 8
15 831
16 79
17 13
18 53
19 1
20 4
21 53
22 182
23 7
24 2
25 76
26 5
27 163
28 6
29 8
30 2
31 15
32 31
33 3
34 7Keterangan :
\(Y\) = Provinsi di Indonesia
\(X_{1}\) = Jumlah Penduduk (Ribu Jiwa)
\(X_{2}\) = Kepadatan Penduduk (Jiwa/\(KM^2\))
\(X_{3}\) = Jumlah Kasus Terkonfirmasi
\(X_{4}\) = Jumlah Kasus Sembuh
\(X_{5}\) = Jumlah Kasus Meninggal
2.3 Statistik Deskriptif
Statistik deskriptif memberikan gambaran umum tentang variabel-variabel yang digunakan dalam analisis klaster COVID-19. Dengan mengetahui statistika deskriptif, variasi dalam data (misalnya, rentang jumlah kasus atau kepadatan penduduk) yang bisa mempengaruhi pola klasterisasi dalam analisis persebaran COVID-19 dapat dipahami.
> statdes <- summary(data)
> statdes
Provinsi Jumlah.Penduduk Kepadatan.Penduduk Terkonfirmasi
Length:34 Min. : 710 Min. : 11.0 Min. : 79.0
Class :character 1st Qu.: 2227 1st Qu.: 57.0 1st Qu.: 206.8
Mode :character Median : 4230 Median : 103.5 Median : 607.0
Mean : 7883 Mean : 756.0 Mean : 1588.4
3rd Qu.: 6249 3rd Qu.: 276.8 3rd Qu.: 1459.8
Max. :48739 Max. :16165.0 Max. :11508.0
Sembuh Meninggal
Min. : 16.00 Min. : 0.00
1st Qu.: 45.75 1st Qu.: 5.25
Median : 118.50 Median : 12.50
Mean : 832.82 Mean : 81.00
3rd Qu.: 926.00 3rd Qu.: 78.25
Max. :6957.00 Max. :831.00 2.4 Uji Asumsi
UJi asumsi digunakan untuk mengetahui dan memastikan bahwa data memenuhi syarat atau kondisi tertentu sebelum melakukan analisis statistik lebih lanjut.
2.4.1 Uji KMO
2.4.2 Uji Non-Multikolinearitas
> korelasi <- cor(data[,2:6], method = 'pearson')
> korelasi
Jumlah.Penduduk Kepadatan.Penduduk Terkonfirmasi Sembuh
Jumlah.Penduduk 1.00000000 0.1621390 0.0920357 0.05732123
Kepadatan.Penduduk 0.16213897 1.0000000 0.6623229 0.49911321
Terkonfirmasi 0.09203570 0.6623229 1.0000000 0.97576399
Sembuh 0.05732123 0.4991132 0.9757640 1.00000000
Meninggal 0.09145505 0.5927972 0.9743683 0.96434274
Meninggal
Jumlah.Penduduk 0.09145505
Kepadatan.Penduduk 0.59279718
Terkonfirmasi 0.97436828
Sembuh 0.96434274
Meninggal 1.000000002.5 Standarisasi
Standarisasi diperlukan untuk menyetarakan skala variabel seperti jumlah penduduk, kepadatan penduduk, jumlah kasus terkonfirmasi, jumlah sembuh, dan jumlah meninggal. Variabel-variabel ini memiliki rentang nilai yang berbeda, sehingga tanpa standarisasi, variabel dengan nilai besar, seperti jumlah penduduk, dapat mendominasi hasil klaster.
> datastand <- scale(data[,2:6])
> head(datastand, 10)
Jumlah.Penduduk Kepadatan.Penduduk Terkonfirmasi Sembuh Meninggal
1 -0.22355933 -0.2390580 -0.55637497 -0.52929607 -0.45231853
2 0.62183260 -0.1965488 -0.04475284 0.10790080 0.05725551
3 -0.20053732 -0.2241616 -0.31825689 -0.49201328 -0.28627755
4 -0.12425061 -0.2474145 -0.50292742 -0.51370509 -0.40651412
5 -0.50826363 -0.2470512 -0.54236803 -0.53200755 -0.46376963
6 -0.37696626 -0.2376047 0.15171300 0.08959833 0.00000000
7 0.05839883 -0.2365147 -0.53941920 -0.54692067 -0.40651412
8 -0.56249344 -0.1725693 -0.51619716 -0.54556493 -0.39506302
9 -0.51330847 -0.2412380 -0.53057271 -0.55369936 -0.45231853
10 -0.30219738 -0.1787458 -0.47749375 -0.53471903 -0.37216082
> rownames(datastand) <- 1:nrow(datastand)2.6 Jarak Manhattan
Jarak Manhattan digunakan untuk mengukur kedekatan atau kesamaan antara wilayah berdasarkan variabel-variabel dalam data. Dengan menggunakan jarak Manhattan, lebih mudah mengidentifikasi wilayah yang memiliki karakteristik COVID-19 yang mirip dan mengelompokkan mereka secara lebih akurat.
2.7 Indeks Validitas
Indeks validitas penting untuk dilakukan karena digunakan untuk menilai kualitas sehingga dapat menentukan kluster optimal yang paling sesuai untuk pengelompokkan data penyebaran COVID-19 tahun 2022 berdasarkan karakteristiknya. Tiga elemen validitas yang gunakan adalah Connectivity, Dunn, dan Silhouette.
> library(clValid)
> inval <- clValid(datastand, 2:6, clMethods = "pam", validation = "internal", metric = "manhattan", method = "average")
> summary(inval)
Clustering Methods:
pam
Cluster sizes:
2 3 4 5 6
Validation Measures:
2 3 4 5 6
pam Connectivity 3.8579 12.8694 14.8694 14.9317 21.2155
Dunn 1.0317 0.1881 0.2446 0.4495 0.2316
Silhouette 0.8232 0.6278 0.6091 0.6538 0.5124
Optimal Scores:
Score Method Clusters
Connectivity 3.8579 pam 2
Dunn 1.0317 pam 2
Silhouette 0.8232 pam 2
> optimalScores(inval)
Score Method Clusters
Connectivity 3.8579365 pam 2
Dunn 1.0316812 pam 2
Silhouette 0.8232167 pam 2
> plot(inval)2.8 K-Medoid 2 cluster
Metode K-Medoids digunakan untuk mengelompokkan wilayah (Provinsi) berdasarkan kesamaan karakteristik dalam variabel-variabel yang ada dalam data. Dari indeks validitas didapatkan cluster optimal dari ketiga elemen validitas adalah 2 cluster, maka pengelompokkan yang dilakukan pada data penyebaran COVID-19 adalah 2 cluster.
> library(cluster)
> kmedoid_result <- pam(datastand, k = 2)
> data$Cluster <- kmedoid_result$clustering
> print(kmedoid_result)
Medoids:
ID Jumlah.Penduduk Kepadatan.Penduduk Terkonfirmasi Sembuh Meninggal
28 28 -0.3105499 -0.24668785 -0.4590636 -0.4859125 -0.4294163
15 15 -0.3680698 0.04142988 3.6563983 4.1513894 4.2941633
Clustering vector:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
1 1 1 1 1 1 1 1 1 1 2 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1
27 28 29 30 31 32 33 34
1 1 1 1 1 1 1 1
Objective function:
build swap
0.9580225 0.9580225
Available components:
[1] "medoids" "id.med" "clustering" "objective" "isolation"
[6] "clusinfo" "silinfo" "diss" "call" "data"
> kmedoid_result$medoids
Jumlah.Penduduk Kepadatan.Penduduk Terkonfirmasi Sembuh Meninggal
28 -0.3105499 -0.24668785 -0.4590636 -0.4859125 -0.4294163
15 -0.3680698 0.04142988 3.6563983 4.1513894 4.2941633
> kmedoid_result$clusinfo
size max_diss av_diss diameter separation
[1,] 32 4.254859 0.8325921 4.532623 5.316142
[2,] 2 5.929816 2.9649078 5.929816 5.3161422.9 Visualisasi Hasil
Visualisasi ini membantu menyajikan hasil klasterisasi secara intuitif, memungkinkan kita untuk mengidentifikasi wilayah-wilayah yang memiliki pola kasus COVID-19 serupa dengan lebih mudah. Visualisasi ini menggunakan PCA (Principal Component Analysis) berguna ketika data memiliki banyak variabel, seperti dalam analisis klaster persebaran COVID-19
> library(factoextra)
> fviz_cluster(kmedoid_result, geom = "point", ellipse.type = "convex",
+ main = "Visualisasi K-Medoid Clustering dengan PCA")3 HASIL DAN PEMBAHASAN
3.1 Statistik Deskriptif
> statdes <- summary(data)
> statdes
Provinsi Jumlah.Penduduk Kepadatan.Penduduk Terkonfirmasi
Length:34 Min. : 710 Min. : 11.0 Min. : 79.0
Class :character 1st Qu.: 2227 1st Qu.: 57.0 1st Qu.: 206.8
Mode :character Median : 4230 Median : 103.5 Median : 607.0
Mean : 7883 Mean : 756.0 Mean : 1588.4
3rd Qu.: 6249 3rd Qu.: 276.8 3rd Qu.: 1459.8
Max. :48739 Max. :16165.0 Max. :11508.0
Sembuh Meninggal Cluster
Min. : 16.00 Min. : 0.00 Min. :1.000
1st Qu.: 45.75 1st Qu.: 5.25 1st Qu.:1.000
Median : 118.50 Median : 12.50 Median :1.000
Mean : 832.82 Mean : 81.00 Mean :1.059
3rd Qu.: 926.00 3rd Qu.: 78.25 3rd Qu.:1.000
Max. :6957.00 Max. :831.00 Max. :2.000 Dari statistik deskriptif dapat menunjukkan variasi atau perbedaan yang besar antar provinsi dalam jumlah penduduk, kepadatan penduduk, serta jumlah kasus terkonfirmasi, sembuh, dan meninggal akibat COVID-19 pada tahun 2022. Statistik deskriptif merupakan langkah penting untuk memahami karakteristik data, mengidentifikasi outlier, memastikan data dalam skala yang sama, dan mempersiapkan analisis clustering yang lebih baik dan akurat.
Interpretasi:
Jumlah penduduk antar provinsi cukup bervariasi, dengan rata-rata sekitar 7,883 ribu jiwa. Namun, terdapat perbedaan yang signifikan antara provinsi dengan jumlah penduduk terendah dan tertinggi.
Rata-rata kepadatan penduduk adalah 756 jiwa/km², namun nilai ini sangat dipengaruhi oleh provinsi-provinsi dengan kepadatan sangat tinggi, seperti DKI Jakarta. Perbedaan besar antara nilai minimum dan maksimum menunjukkan variasi besar dalam kepadatan antar provinsi.
Rata-rata jumlah kasus terkonfirmasi adalah sekitar 1,588 kasus, tetapi terdapat variasi yang besar, dengan beberapa provinsi memiliki kasus yang jauh lebih tinggi dari yang lain, menunjukkan adanya provinsi dengan tingkat infeksi yang sangat tinggi.
Rata-rata kasus sembuh adalah 832 kasus. Namun, terdapat beberapa provinsi yang memiliki kasus sembuh sangat tinggi, yang bisa mencerminkan provinsi dengan jumlah kasus tinggi secara keseluruhan atau efektivitas penanganan di provinsi tersebut.
Rata-rata jumlah kasus meninggal adalah 81 kasus, tetapi terdapat perbedaan besar antara provinsi dengan angka kematian rendah dan tinggi. Beberapa provinsi mungkin memiliki fasilitas kesehatan yang lebih baik atau penduduk yang lebih rentan terhadap dampak COVID-19.
3.2 Uji Asumsi
3.2.1 Uji KMO
Hipotesis:
\(H_0\): Ukuran sampel dan korelasi antar variabel tidak cukup untuk analisis clustering.
\(H_1\): Ukuran sampel dan korelasi antar variabel cukup untuk analisis clustering.
> kmo <- KMO(data[,2:6])
> kmo
Kaiser-Meyer-Olkin factor adequacy
Call: KMO(r = data[, 2:6])
Overall MSA = 0.6
MSA for each item =
Jumlah.Penduduk Kepadatan.Penduduk Terkonfirmasi Sembuh
0.85 0.40 0.57 0.57
Meninggal
0.93 Interpretasi:
Nilai KMO keseluruhan tepat pada ambang batas 0.6, yang menunjukkan bahwa data ini secara minimal cukup untuk analisis clustering.
Nilai KMO jumlah penduduk adalah 0,85 yang berarti cukup tinggi, menunjukkan bahwa variabel ini sangat cocok untuk analisis clustering.
Nilai KMO kepadatan penduduk adalah 0.40 yang berarti rendah, menunjukkan bahwa variabel ini kurang mendukung analisis clustering dan mungkin memiliki korelasi yang lemah dengan variabel lain.
Nilai KMO terkonfirmasi dan sembuh adalah 0,57 yang berarti cukup lemah, menunjukkan bahwa variabel ini cukup mendukung clustering, meskipun tidak optimal.
Nilai KMO meninggal adalah 0,93 yang berarti tinggi yang menunjukkan bahwa variabel ini sangat cocok untuk analisis clustering.
3.2.2 Uji Non-Multikolinearitas
\(H_0\): Tidak ada multikolinearitas tinggi antar variabel dalam data, sehingga variabel-variabel ini berdiri sendiri dan sesuai untuk analisis clustering.
\(H_1\): Terdapat multikolinearitas tinggi antar variabel, artinya beberapa variabel memiliki korelasi sangat tinggi dan dapat mempengaruhi hasil clustering.
> korelasi <- cor(data[,2:6], method = 'pearson')
> korelasi
Jumlah.Penduduk Kepadatan.Penduduk Terkonfirmasi Sembuh
Jumlah.Penduduk 1.00000000 0.1621390 0.0920357 0.05732123
Kepadatan.Penduduk 0.16213897 1.0000000 0.6623229 0.49911321
Terkonfirmasi 0.09203570 0.6623229 1.0000000 0.97576399
Sembuh 0.05732123 0.4991132 0.9757640 1.00000000
Meninggal 0.09145505 0.5927972 0.9743683 0.96434274
Meninggal
Jumlah.Penduduk 0.09145505
Kepadatan.Penduduk 0.59279718
Terkonfirmasi 0.97436828
Sembuh 0.96434274
Meninggal 1.00000000Interpretasi:
Dari hasil uji diketahui tidak terdapat multikolinearitas yang terlalu tinggi antar variabel sehingga data masih sesuai untuk analisis clustering.
3.3 Standarisasi
> datastand <- scale(data[,2:6])
> head(datastand, 10)
Jumlah.Penduduk Kepadatan.Penduduk Terkonfirmasi Sembuh Meninggal
1 -0.22355933 -0.2390580 -0.55637497 -0.52929607 -0.45231853
2 0.62183260 -0.1965488 -0.04475284 0.10790080 0.05725551
3 -0.20053732 -0.2241616 -0.31825689 -0.49201328 -0.28627755
4 -0.12425061 -0.2474145 -0.50292742 -0.51370509 -0.40651412
5 -0.50826363 -0.2470512 -0.54236803 -0.53200755 -0.46376963
6 -0.37696626 -0.2376047 0.15171300 0.08959833 0.00000000
7 0.05839883 -0.2365147 -0.53941920 -0.54692067 -0.40651412
8 -0.56249344 -0.1725693 -0.51619716 -0.54556493 -0.39506302
9 -0.51330847 -0.2412380 -0.53057271 -0.55369936 -0.45231853
10 -0.30219738 -0.1787458 -0.47749375 -0.53471903 -0.37216082
> rownames(datastand) <- 1:nrow(datastand)Interpretasi:
Dari hasil standarisasi dapat diketahui seberapa jauh atau dekat nilai setiap provinsi dari rata-rata nasional, yang membantu dalam memahami karakteristik unik dari setiap provinsi dalam persebaran COVID-19 yang membantu dalam melakukan pengelompokkan.
Misalnya Provinsi 11 memiliki nilai standar sangat tinggi pada Kepadatan Penduduk (5.60) dan Terkonfirmasi (3.51), yang menunjukkan bahwa provinsi ini jauh di atas rata-rata nasional pada kedua variabel tersebut dan Provinsi 15 memiliki nilai standar tinggi pada Terkonfirmasi (3.66), Sembuh (4.15), dan Meninggal (4.29), menunjukkan bahwa provinsi ini memiliki kasus terkonfirmasi, sembuh, dan meninggal jauh di atas rata-rata nasional.
3.4 Jarak Manhattan
> jarak <- dist(datastand, method = "manhattan")
> jarak
1 2 3 4 5 6
2 2.54629415
3 0.47936024 2.06693391
4 0.22250818 2.34049898 0.42613850
5 0.32086701 2.83914727 0.77221336 0.49937494
6 1.93416115 1.31187855 1.52773107 1.92698343 1.92020041
7 0.36488622 2.21665711 0.66759551 0.26325659 0.65231639 2.17062039
8 0.51912501 2.78553415 0.77382584 0.56966874 0.23714656 1.94869904
9 0.34213466 2.83682427 0.76989036 0.50867838 0.05579629 1.91787741
10 0.30341210 2.44661003 0.43490171 0.32741635 0.43356617 1.75931267
11 17.03375625 15.25341758 16.55439601 16.82796108 17.32660937 15.40640895
12 7.27806325 4.73176910 6.79870301 7.07226808 7.57091637 5.65071596
13 4.55483782 2.52574919 4.07547758 4.34904265 4.84769094 2.92749053
14 3.28442099 3.81886017 3.45189170 3.13270999 3.57185115 4.97962277
15 14.06493898 13.20942869 13.63162275 14.05776125 14.06877116 12.14857075
16 4.97152942 2.93787514 4.49216918 4.76573425 5.26438253 4.09863774
17 1.21165277 1.75464655 0.95992531 1.17994398 1.50450589 1.24915636
18 1.20261344 1.85833493 0.76929721 1.19543571 1.03313133 1.02149981
19 0.14739811 2.62407278 0.55713887 0.31772647 0.21802332 1.81274719
20 0.26051607 2.59736933 0.53043542 0.32837950 0.26866408 1.71651758
21 1.27221713 2.14375249 0.86869365 1.24832639 0.97967528 1.22480564
22 3.73797779 2.95513276 3.32210123 3.73080007 3.55786204 1.80381664
23 0.61989677 2.70281343 0.65485985 0.63035934 0.32735492 1.78386658
24 0.28486359 2.74121840 0.67428449 0.40071942 0.14922849 1.82227155
25 1.66463304 0.88166111 1.18527280 1.45883787 1.95748616 1.00122323
26 0.43197612 2.86503574 0.79810183 0.52453676 0.13401131 1.94608888
27 4.88779205 4.03664167 4.45447582 4.88061432 4.71125594 2.95363090
28 0.25821763 2.47731731 0.42258504 0.28158461 0.36182995 1.69120322
29 0.10898068 2.45358233 0.38664842 0.14670991 0.39641084 1.85062655
30 0.03625572 2.54630698 0.47937307 0.21743444 0.32081094 1.94461460
31 0.91241522 2.28265425 0.70243029 0.88852449 0.61987337 1.36370739
32 1.13800353 2.15779443 0.73890330 1.11411279 0.84546167 1.23884758
33 0.48172092 2.86150595 0.79457205 0.53798790 0.18917906 1.94255910
34 1.42188948 1.61329012 1.29319246 1.43235205 1.52712649 0.69731173
7 8 9 10 11 12
2
3
4
5
6
7
8 0.72086658
9 0.63786014 0.19761913
10 0.52684548 0.33892413 0.42582021
11 16.70411921 17.22503718 17.32428637 16.89846615
12 6.94842622 7.46934419 7.56859337 7.14277315 16.44706015
13 4.22520079 4.74611876 4.84536794 4.41954773 12.72766839 4.19096571
14 2.95870582 3.50252600 3.55597077 3.22989380 18.36669812 4.01262260
15 14.29921826 13.96719898 14.06644816 13.77237278 9.07016186 14.75840436
16 4.64189238 5.16281035 5.26205953 4.83623932 17.38180178 2.30653383
17 1.42140099 1.40293371 1.50218289 1.11071598 15.82210347 6.06641048
18 1.43689272 0.93155914 1.03080833 0.91004724 16.29347804 6.53778504
19 0.48213271 0.41029276 0.25074207 0.25102939 17.11153488 7.35584188
20 0.56858854 0.40766449 0.27796752 0.22598742 17.08483143 7.32913843
21 1.51158298 0.91860725 0.97888904 1.10027526 16.63121459 6.87552159
22 3.97225708 3.57691419 3.55553904 3.55368283 13.76874732 5.04494013
23 0.89361593 0.32354240 0.32656869 0.55101482 17.19027553 7.43458253
24 0.60634809 0.30706389 0.15446472 0.33157009 17.22868050 7.47298750
25 1.33499601 1.92494597 1.95516316 1.58602184 15.36912321 5.61343021
26 0.69605977 0.12746065 0.10611032 0.45403168 17.35249784 7.59680484
27 5.12207133 4.66200274 4.70893294 4.63519174 12.61535343 6.19898799
28 0.54338789 0.47720151 0.37040674 0.20078678 16.96477941 7.20908641
29 0.34289605 0.45986797 0.38324194 0.20903159 16.94104443 7.18535143
30 0.33371708 0.49839648 0.31704621 0.30301964 17.03376908 7.27807608
31 1.15178108 0.62859080 0.61908713 0.75192445 16.77011635 7.01442335
32 1.37736938 0.78439365 0.84467544 0.96606165 16.64525653 6.88956354
33 0.80124448 0.23117095 0.18839283 0.50066421 17.34896805 7.59327506
34 1.69560864 1.63177359 1.53642993 1.35300753 15.84380869 6.08811569
13 14 15 16 17 18
2
3
4
5
6
7
8
9
10
11
12
13
14 5.69861524
15 10.85371620 16.55233144
16 4.81763021 1.70608876 15.67134641
17 3.34318505 3.73046641 12.87781727 3.75987664
18 3.81455961 4.11364433 13.03563984 4.23125121 0.92941865
19 4.63261645 3.38931437 13.92899197 5.04930805 1.28943140 1.06666643
20 4.60591300 3.35468871 13.84729541 5.02260460 1.26272795 0.98496986
21 4.15229616 4.32058536 13.37337639 4.56898776 1.26715520 0.47602183
22 1.65626416 6.77399293 10.51090912 5.89300790 3.04352652 2.66034860
23 4.71135710 3.67971610 13.93243733 5.12804870 1.36817206 0.89679749
24 4.74976208 3.46985507 13.97084230 5.16645367 1.40657703 0.99045878
25 2.89020478 3.97839954 13.07096225 3.41264394 1.15724151 1.10243023
26 4.87357941 3.58418224 14.09465963 5.29027100 1.53039436 1.05901980
27 2.15688661 7.85550184 9.35751523 6.97451681 4.12503543 3.74185751
28 4.48586099 3.32948807 13.82198105 4.90255258 1.14267594 0.95965551
29 4.46212600 3.17544031 13.98140437 4.87881760 1.11894095 1.11907883
30 4.55485065 3.26545348 14.07539243 4.97154224 1.21166560 1.21306688
31 4.29119792 3.96078345 13.51227814 4.70788951 0.97091508 0.64203834
32 4.16633811 4.18637176 13.38741833 4.58302970 1.02927290 0.67851136
33 4.87004963 3.63894919 14.09112985 5.28674122 1.52686458 1.05549001
34 3.36489026 4.48170881 12.70336166 4.41375203 0.80849791 1.17406954
19 20 21 22 23 24
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20 0.16098906
21 1.15370978 1.01170106
22 3.60711735 3.52033422 2.86246727
23 0.50138943 0.35938070 0.65232036 3.42152821
24 0.19347100 0.14384907 1.00193027 3.52582314 0.35978305
25 1.74241167 1.71570822 1.26209138 2.79559339 1.82115232 1.85955729
26 0.34058353 0.28783734 0.87277872 3.58375051 0.22045837 0.18723674
27 4.75184504 4.67014847 4.01586116 1.37096483 4.57492210 4.67563739
28 0.17945483 0.12005202 1.01399950 3.49501987 0.36167914 0.26390109
29 0.22840712 0.22569249 1.19158913 3.65444319 0.55071988 0.29441476
30 0.15858877 0.26588295 1.27758401 3.74843124 0.62526365 0.28074030
31 0.79390787 0.65407911 0.38691667 3.00136902 0.42015918 0.65956803
32 1.01949618 0.87894076 0.32266119 2.87650921 0.54501900 0.88442968
33 0.36321357 0.29531860 0.79485613 3.58022073 0.15869252 0.20707415
34 1.34547801 1.25846240 1.31633656 2.37640047 1.35881994 1.38487182
25 26 27 28 29 30
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26 1.98337463
27 3.89381531 4.73714441
28 1.59565620 0.38771843 4.64483412
29 1.57192122 0.41145341 4.80425744 0.20049184
30 1.66464587 0.40616102 4.89824549 0.26358451 0.09398805
31 1.40099314 0.58892136 4.15476292 0.65419759 0.83178723 0.91778210
32 1.27613333 0.73856512 4.02990310 0.87978589 1.05737553 1.14337041
33 1.97984485 0.10518472 4.73361462 0.38418864 0.46350889 0.48708779
34 1.28198422 1.53484864 3.52621472 1.16602318 1.35271259 1.42725636
31 32 33
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32 0.22558831
33 0.57885171 0.70371152
34 1.03753610 1.09516726 1.50515937Interpretasi:
Jarak Manhattan digunakan dalam analisis ini untuk mengelompokkan provinsi-provinsi yang mirip dalam hal persebaran COVID-19. Provinsi dengan jarak yang kecil akan cenderung berada dalam cluster yang sama, sementara provinsi dengan jarak besar kemungkinan besar akan berada di cluster yang berbeda.
Dari hasil uji jarak Manhattan menunjukkanperbedaan antar provinsi dalam hal karakteristik COVID-19, dengan beberapa provinsi sangat mirip dan beberapa lainnya sangat berbeda. Analisis ini membantu memahami pola persebaran COVID-19 dan menemukan provinsi dengan karakteristik serupa untuk dianalisis dengan metode clustering.
3.5 Indeks Validitas
> library(clValid)
> inval <- clValid(datastand, 2:6, clMethods = "pam", validation = "internal", metric = "manhattan", method = "average")
> summary(inval)
Clustering Methods:
pam
Cluster sizes:
2 3 4 5 6
Validation Measures:
2 3 4 5 6
pam Connectivity 3.8579 12.8694 14.8694 14.9317 21.2155
Dunn 1.0317 0.1881 0.2446 0.4495 0.2316
Silhouette 0.8232 0.6278 0.6091 0.6538 0.5124
Optimal Scores:
Score Method Clusters
Connectivity 3.8579 pam 2
Dunn 1.0317 pam 2
Silhouette 0.8232 pam 2
> optimalScores(inval)
Score Method Clusters
Connectivity 3.8579365 pam 2
Dunn 1.0316812 pam 2
Silhouette 0.8232167 pam 2
> plot(inval)Interpretasi:
Connectivity: Nilai terendah pada Connectivity menunjukkan cluster yang lebih baik karena menunjukkan hubungan dalam cluster yang lebih kuat. Hasil uji menunjukkan bahwa jumlah cluster 2 memiliki nilai Connectivity yang paling rendah (3.8579), yang berarti bahwa jumlah cluster 2 merupakan jumlah yang paling tepat menurut uji Connectivity.
Dunn: Nilai Dunn yang lebih tinggi menunjukkan kualitas cluster yang lebih baik. Pada hasil uji ini, nilai Dunn tertinggi tercapai ketika jumlah cluster adalah 2 (1.0317). Hal ini mengindikasikan bahwa dengan 2 cluster, jarak antara cluster relatif besar dibandingkan jarak di dalam cluster, menunjukkan pemisahan yang baik menurut uji Dunn.
Silhouette: Nilai Silhouette tertinggi menunjukkan kualitas cluster yang lebih tinggi. Pada hasil ini, nilai Silhouette tertinggi tercapai saat jumlah cluster adalah 2 (0.8232), yang berarti bahwa jumlah cluster 2 merupakan jumlah pengelompokkan terbaik menurut uji Silhouette.
Kesimpulan:
Dari hasil uji validitas dengan metode PAM ada data persebaran COVID-19 tahun 2022 dengan tiga validitas yaitu Connectivity, Dunn, dan Silhouette, ketiganya menunjukkan bahwa pengelompokkan dengan 2 cluster adalah pilihan terbaik untuk data ini. Dengan 2 cluster, data menunjukkan struktur yang lebih baik dengan konektivitas yang lebih rendah, pemisahan cluster yang lebih jelas, dan keseragaman yang lebih tinggi dalam setiap cluster sehingga diharapkan hasilnya optimal.
3.6 K-Medoid 2 cluster
> library(cluster)
> kmedoid_result <- pam(datastand, k = 2)
> data$Cluster <- kmedoid_result$clustering
> print(kmedoid_result)
Medoids:
ID Jumlah.Penduduk Kepadatan.Penduduk Terkonfirmasi Sembuh Meninggal
28 28 -0.3105499 -0.24668785 -0.4590636 -0.4859125 -0.4294163
15 15 -0.3680698 0.04142988 3.6563983 4.1513894 4.2941633
Clustering vector:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
1 1 1 1 1 1 1 1 1 1 2 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1
27 28 29 30 31 32 33 34
1 1 1 1 1 1 1 1
Objective function:
build swap
0.9580225 0.9580225
Available components:
[1] "medoids" "id.med" "clustering" "objective" "isolation"
[6] "clusinfo" "silinfo" "diss" "call" "data"
> kmedoid_result$medoids
Jumlah.Penduduk Kepadatan.Penduduk Terkonfirmasi Sembuh Meninggal
28 -0.3105499 -0.24668785 -0.4590636 -0.4859125 -0.4294163
15 -0.3680698 0.04142988 3.6563983 4.1513894 4.2941633
> kmedoid_result$clusinfo
size max_diss av_diss diameter separation
[1,] 32 4.254859 0.8325921 4.532623 5.316142
[2,] 2 5.929816 2.9649078 5.929816 5.316142Interpretasi:
- Pusat cluster
- Medoid cluster 1 merepresentasikan data dengan karakteristik yang lebih rendah dibanding rata-rata untuk semua variabel karena nilainya negatif dan menunjukkan kondisi kasus COVID-19 yang relatif lebih rendah atau ringan.
- Medoid cluster 2 merepresentasikan data dengan jumlah kasus COVID-19 yang jauh lebih tinggi dibandingkan rata-rata, terutama pada variabel Terkonfirmasi, Sembuh, dan Meninggal, yang bernilai positif tinggi.
- Clustering vector
Sebagian besar data (32 dari 34) termasuk dalam Cluster 1. Hanya dua data yang termasuk dalam Cluster 2 yaitu Provinsi DKI Jakarta dan Provinsi DI Yogyakarta. DKI Jakarta memiliki kepadatan penduduk tertinggi di Indonesia, yang sangat berperan dalam peningkatan risiko penyebaran COVID-19 dan walaupun DI Yogyakarta tidak sepadat Jakarta, wilayah perkotaan di provinsi ini juga memiliki tingkat kepadatan yang signifikan, terutama di kota Yogyakarta itu sendiri. Ini menunjukkan adanya satu cluster besar yang mencakup provinsi-provinsi dengan kasus COVID-19 yang relatif rendah dan satu cluster kecil (2 provinsi) dengan kondisi yang jauh lebih parah.
- Objective function
Fungsi objektif ini menunjukkan kualitas hasil clustering, di mana semakin rendah nilainya, semakin baik pemisahan cluster. Pada hasil uji ini, nilai fungsi objektif cukup rendah, yang menandakan bahwa clustering sudah cukup optimal dalam memisahkan dua kelompok yaitu sebesar 0,9580.
- Cluster Information
Cluster 1: Cluster 1 terdiri dari 32 provinsi dengan nilai jarak maksimum dan rata-rata yang relatif rendah. Jarak maksimum antar anggotanya sebesar 4.2549 dan jarak rata-rata antar anggota sebesar 0.8326. Diameter cluster, atau jarak terbesar antara dua titik dalam cluster, adalah 4.5326, dan separation (jarak minimum antara anggota Cluster 1 dengan medoid Cluster 2) sebesar 5.3161. Hal ini menunjukkan variasi yang lebih rendah antar anggota dalam hal jumlah penduduk, kepadatan,dan jumlah kasus COVID-19.
Cluster 2: Cluster 2 terdiri dari 2 provinsi namun memiliki jarak maksimum antar anggota yang cukup tinggi, yaitu 5.9298, serta jarak rata-rata antar anggota sebesar 2.9649. Diameter cluster ini sama dengan jarak maksimum, yaitu 5.9298, dengan separation yang juga sebesar 5.3161 (sama dengan Cluster 1, karena jarak antar cluster diukur secara simetris). Cluster 2 memiliki variasi yang cukup tinggi di antara anggotanya, terlihat dari jarak maksimum dan rata-rata yang lebih tinggi. Hal ini menunjukkan bahwa kedua provinsi dalam Cluster 2 memiliki karakteristik kasus COVID-19 yang signifikan dan cenderung jauh lebih besar daripada provinsi-provinsi di Cluster 1.
3.7 Visualisasi Hasil
> library(factoextra)
> fviz_cluster(kmedoid_result, geom = "point", ellipse.type = "convex",
+ main = "Visualisasi K-Medoid Clustering dengan PCA")Interpretasi:
Dari hasil plot dapat dilihat bahwa ada pemisahan yang signifikan antara kedua cluster. Cluster 2 menunjukkan provinsi-provinsi yang mengalami dampak COVID-19 yang lebih parah dibandingkan Cluster 1, yang terdiri dari mayoritas provinsi dengan tingkat kasus yang lebih rendah. Ini mengindikasikan bahwa provinsi dalam Cluster 2 mungkin memiliki faktor-faktor risiko yang berbeda, seperti kepadatan penduduk atau karakteristik lainnya, yang menyebabkan tingginya kasus COVID-19.
4 KESIMPULAN
Dari pengujian clustering menggunakan metode K-Medoid yang telah dilakukan, dapat diketahui bahwa penyebaran kasus COVID-19 pada tahun 2022 tiap provinsi dikelompokkan menjadi 2 cluster optimal berdasarkan karakteristiknya.
Terdapat 32 provinsi yang termasuk dalam cluster 1 yang merupakan kumpulan provinsi dengan karakteristik kasus COVID-19 yang jumlahnya lebih rendah dan populasi yang beragam tetapi tidak memiliki kepadatan penduduk atau tingkat kematian yang tinggi yang mencerminkan bahwa dampak pandemi di wilayah-wilayah ini tidak seberat di cluster 2. Sedangkan terdapat 2 provinsi yang termasuk dalam cluster 2 yaitu DKI Jakarta dan DI Yogyakarta yang menunjukkan karakteristik kasus COVID-19 yang signifikan. Kedua provinsi ini memiliki tingkat kasus terkonfirmasi, kesembuhan, dan kematian yang lebih tinggi dibandingkan dengan provinsi-provinsi dalam Cluster 1. Hal ini mengindikasikan bahwa dampak pandemi di DKI Jakarta dan DI Yogyakarta jauh lebih berat. Meskipun hanya terdiri dari dua anggota, Cluster 2 memiliki jarak maksimum dan rata-rata antar anggota yang tinggi, menunjukkan adanya perbedaan yang cukup besar dalam karakteristik kasus COVID-19 antara kedua provinsi ini dan provinsi-provinsi lainnya di Cluster 1. Perbedaan ini menunjukkan bahwa DKI Jakarta dan DI Yogyakarta mengalami dampak pandemi yang lebih signifikan, baik dari segi tingkat penyebaran, kesembuhan, maupun kematian, dibandingkan dengan provinsi lain di Indonesia pada tahun 2022.
5 SARAN
Perdalam analisis dengan mempertimbangkan faktor-faktor tambahan yang mungkin mempengaruhi penyebaran, seperti mobilitas penduduk, tingkat vaksinasi, dan kebijakan kesehatan di masing-masing wilayah. Selanjutnya, lakukan validasi hasil klasterisasi dengan data dari tahun-tahun sebelumnya atau data terbaru dapat membantu memperkuat temuan untuk penelitian penyebaran COVID-19 selanjutnya.
6 DAFTAR PUSTAKA
- Badan Pusat Statistik Provinsi Sulawesi Utara. (n.d.). Jumlah Penduduk Menurut Provinsi di Indonesia. Diakses pada 4 November 2024, dari https://sulut.bps.go.id/id/statistics-table/2/OTU4IzI=/jumlah-penduduk-menurut-provinsi-diindonesia.html
- Kementerian Kesehatan Republik Indonesia. (n.d.). Dashboard COVID-19. Diakses pada 4 November 2024, dari https://dashboardcovid19.kemkes.go.id/
- Badan Pusat Statistik. (n.d.). Kepadatan Penduduk Menurut Provinsi (Jiwa/Km²). Diakses pada 4 November 2024, dari https://www.bps.go.id/id/statistics-table/2/MTQxIzI=/kepadatan-penduduk-menurut-provinsi--jiwa-km2-.html
- Anderberg, M. R. (1973). Cluster Analysis. New York: Academic Press.
- Pinasthika. (n.d.). Analisis K-Medoids. Diakses pada 6 November 2024, dari https://rpubs.com/Pinasthika/Analisis_KMedoids