1 PENDAHULUAN

1.1 Latar Belakang

Pandemi COVID-19 telah memberikan dampak yang signifikan terhadap kesehatan global sejak pertama kali terdeteksi. Dipengaruhi oleh berbagai faktor seperti kepadatan penduduk, mobilitas masyarakat, dan karakteristik lingkungan,dengan tingkat penyebaran yang berbeda-beda di berbagai wilayah. Memahami pola penyebaran kasus COVID-19 sangat penting bagi pemerintah dan organisasi kesehatan untuk membuat keputusan yang tepat, termasuk alokasi sumber daya dan strategi respons. Salah satu pendekatan yang dapat digunakan untuk menganalisis persebaran kasus COVID-19 adalah melalui teknik Analisis Cluster, yang memungkinkan pengelompokan wilayah berdasarkan kesamaan tingkat kasus dan pola penyebarannya.

Analisis Cluster adalah teknik analisis data yang mengeksplor kelompok-kelompok yang terbentuk dalam suatu kumpulan data yang disebut dengan cluster. Tujuan utamanya adalah mengklasifikasikan objek-objek sedemikian rupa sehingga objek yang memiliki kesamaan yang paling tinggi dengan objek lain ditempatkan dalam satu cluster yang sama. Salah satu metode populer dalam analisis klaster adalah metode K-Means. Namun, metode ini memiliki keterbatasan karena sangat sensitif terhadap data pencilan (outliers) dan bergantung pada rata-rata sebagai pusat klaster, yang dapat mengurangi akurasi jika data mengandung nilai ekstrem. Untuk mengatasi kelemahan tersebut, metode K-Medoid dikembangkan sebagai alternatif yang lebih kuat.

K-Medoid, sering disebut juga sebagai metode PAM (Partitioning Around Medoids), mirip dengan K-Means, tetapi memiliki perbedaan utama dalam cara pemilihan pusat klaster atau “medoi”. K-Medoid memilih titik dalam data yang paling representatif sebagai pusat klaster. Pendekatan ini membuat K-Medoid lebih tahan terhadap outliers, karena medoid adalah titik data nyata yang dipilih berdasarkan minimisasi jarak total dalam satu klaster, sehingga lebih mampu menangani distribusi data yang tidak beraturan. Kelebihan utama dari metode K-Medoid ini membuatnya banyak digunakan dalam situasi di mana data memiliki distribusi yang tidak simetris atau terdapat nilai ekstrem yang dapat mengganggu hasil analisis. Selain itu, metode ini juga lebih relevan dalam aplikasi yang membutuhkan representasi nyata dari data, seperti dalam rekomendasi produk atau penentuan segmen pelanggan, di mana hasil klaster seringkali diharapkan merepresentasikan titik data nyata dalam kumpulan data tersebut.

1.2 Tinjauan Pustaka

1.2.1 COVID-19

Covid-19 adalah penyakit menular yang disebabkan oleh virus SARS-CoV-2, yang mulai menyebar secara global sejak akhir 2019. Penyakit ini telah mempengaruhi kesehatan masyarakat dan ekonomi di seluruh dunia, dengan persebaran kasus yang bervariasi di berbagai wilayah. Sebagian orang yang terinveksi virus ini akan mangalami gangguan pernapasan ringan hingga sedang dan sembuh tanpa perawatan intensif. Namun, sebagian orang harus menjalani perawatan intensif dikarenakan mengalami sakit parah seperti lansia dan orang yang memiliki penyakit tertentu seperti penyakit jantung, diabetes, gangguan pernapasan akut, atau kanker. Siapa pun dapat terinfeksi COVID-19 dan mengalami sakit parah atau bahkan meninggal pada usia berapa pun. Cara terbaik untuk mencegah dan memperlambat penularan adalah dengan memiliki informasi yang cukup tentang penyakit ini dan cara penyebaran virus. Virus dapat menyebar dari mulut atau hidung orang yang terinfeksi melalui partikel cair kecil saat mereka batuk, bersin, berbicara, bernyanyi, atau bernapas. Partikel ini berkisar dari tetesan pernapasan yang lebih besar hingga aerosol yang lebih kecil. Penting untuk menjaga etika pernapasan, seperti menutup mulut dengan siku saat batuk, dan tetap di rumah untuk isolasi diri hingga pulih jika merasa tidak enak badan.

1.2.2 Analisis Cluster

Analisis cluster merupakan salah satu metode analisis multivariat yang bertujuan untuk mengelompokkan objek berdasarkan kemiripan dan ketidakmiripan karakteristiknya, sehingga objek yang terletak pada suatu cluster memiliki kesamaan yang tinggi antar anggota dalam satu cluster dan perbedaan yang tinggi antar cluster yang satu dengan yang lain. Cluster-cluster yang terbentuk dalam satu cluster mempunyai ciri yang relatif sama (homogen), sedangkan antar cluster mempunyari ciri yang berbeda (heterogen). Pengelompokan ini dilakukan berdasarkan variabel-variabel yang diamati. Untuk mendapatkan kelompok yang sehomogen mungkin, maka yang digunakan dasar untuk mengelompokan adalah kesamaan skor nilai yang dianalisis. Semakin kecil besaran jarak suatu individu terhadap individu lain, maka semakin besar kemiripan individu tersebut. Data mengenai ukuran kesamaan tersebut kemudian dilakukan pengelompokan sehingga dapat ditentukan individu mana yang masuk kelompok mana

1.2.3 Metode K-Medoid

Metode K-medoids atau sering disebut juga PAM (Partitioning Around Medoids) merupakan salah satu metode partisi yang digunakan untuk mengelompokkan sekumpulan n objek ke dalam k klaster. Metode pengklasteran ini menggunakan medoid sebagai pusat klasternya. Medoid merupakan objek yang letaknya terpusat di dalam suatu klaster. Keunggulan dari metode ini adalah kekuatannya, yaitu tidak terpengaruh terhadap adanya data pencilan ataupun data ekstrem. K-Medoids bekerja melalui dua langkah utama dalam setiap iterasinya: pemilihan medoid awal dan perhitungan kembali medoid hingga stabil atau mencapai jumlah iterasi yang telah ditetapkan. Dengan karakteristik yang dimilikinya, K-Medoids adalah pilihan yang cocok untuk klasterisasi pada data yang cenderung mengandung nilai ekstrem atau pencilan, serta data yang distribusinya tidak selalu simetris.

1.3 Cuplikan Data

Provinsi (Y)	Jumlah Penduduk (X1)	Kepadatan Penduduk (X2)	Terkonfirmasi (X3)	Sembuh (X4)	Meninggal (X5)
Aceh	5.334,90	98	79	52	2
Sumatera Utara	14.970,50	215	1467	992	91
Sumatera Barat	5.597,30	139	725	107	31
Riau	6.466,80	75	224	75	10
Kep. Riau	2.089,90	76	117	48	0
Jambi	3.586,40	102	2000	965	81
Sumatera Selatan	8.548,60	105	125	26	10
Kep. Bangka Belitung	1.471,80	281	188	28	12
Bengkulu	2.032,40	92	149	16	2
Lampung	4.438,60	264	293	44	16
DKI Jakarta	10.605,40	16.165	11114	4624	625
Jawa Barat	48.738,80	1.359	3091	1396	175
Banten	12.023,00	1.104	3482	2266	150
Jawa Tengah	36.811,10	1.186	306	38	8
DI Yogyakarta	3.687,80	870	11508	6957	831
Jawa Timur	40.921,10	1.329	1438	731	79
Kalimantan Barat	5.474,70	793	1414	630	13
Kalimantan Tengah	2.700,10	287	1199	344	53
Kalimantan Selatan	4.116,90	122	113	72	1
Kalimantan Timur	3.803,50	39	321	58	4
Kalimantan Utara	710	18	834	446	53
Sulawesi Utara	2.639,50	115	3003	2098	182
Gorontalo	1.183,50	32	503	121	7
Sulawesi Tengah	3.015,00	11	201	45	2
Sulawesi Selatan	9.156,90	186	1057	809	76
Sulawesi Barat	1.436,70	51	186	28	5
Sulawesi Tenggara	2.659,90	209	4807	2926	163
Bali	4.343,40	77	343	116	6
Nusa Tenggara Barat	5.387,20	102	243	40	8
Nusa Tenggara Timur	5.394,40	91	114	29	2
Maluku	1.869,50	42	711	466	15
Maluku Utara	1.299,60	41	719	585	31
Papua Barat	1.149,40	12	236	81	3
Papua	4.356,80	15	1696	1057	7

Sumber:

https://sulut.bps.go.id/id/statistics-table/2/OTU4IzI=/jumlah-penduduk-menurut-provinsi-diindonesia.html

https://www.bps.go.id/id/statistics-table/2/MTQxIzI=/kepadatan-penduduk-menurut-provinsi--jiwa-km2-.html

https://dashboardcovid19.kemkes.go.id/

1.4 Latar Belakang Kasus

Dalam penelitian ini akan dianalisis menggunakan metode K-Medoid clustering pengelompokkan provinsi-provinsi di Indonesia berdasarkan karakteristik persebaran COVID-19 pada tahun 2022. Dengan menganalisis lima variabel yaitu jumlah penduduk, kepadatan penduduk, jumlah kasus yang terkonfirmasi, sembuh, dan meninggal di masing-masing provinsi, diharapkan hasil clustering ini dapat menggambarkan mengenai pola persebaran COVID-19 di Indonesia pada tahun 2022.

1.5 Latar Belakang Metode

Penelitian ini menggunakan Metode Cluster dengan K-Medoid untuk mengelompokkan provinsi-provindi di Indonesia berdasarkan karakteristik penyebaran COVID-19 pada tahun 2022. Pada data terdapat outlier sehingga metode K-Medoid dipilih karena metode ini menggunakan titik data asli sebagai pusat cluster sehingga lebih tahan terhadap data yang memiliki outlier.

1.6 Tujuan

Menerapkan metode K-Medoid pada penyebaran kasus COVID-19 di tahun 2022
Mengidentifikasi kelompok Provinsi berdasarkan data penyebaran COVID-19.
Membedakan karakteristik setiap cluster.

2 SOURCE CODE

2.1 LIbrary

> library(psych)
> library(clValid)
> library(ggplot2)
> library(cluster)
> library(factoextra) 
> library(tidyverse)
> library(car)
> library(openxlsx)

Kegunaan masing-masing library

psych : Untuk melakukan uji asumsi
clValid : Untuk validasi metode clustering.
ggplot2 : Untuk visualisasi data.
cluster : Untuk metode clustering.
factoextra : Untuk visualisasi hasil analisis multivariat.
tidyverse : Untuk manipulasi dan analisis data.
car : Untuk diagnostik model regresi.
openxlsx : Untuk membuka data Excel ke R.

2.2 Impor Data

> library(openxlsx)
> data <- read.xlsx("/Users/naylaalma/Downloads/covidcluster.xlsx")
> data<-data.frame(data)
> data
               Provinsi Jumlah.Penduduk Kepadatan.Penduduk Terkonfirmasi Sembuh
1                  Aceh          5334.9                 98            79     52
2        Sumatera Utara         14970.5                215          1467    992
3        Sumatera Barat          5597.3                139           725    107
4                  Riau          6466.8                 75           224     75
5             Kep. Riau          2089.9                 76           117     48
6                 Jambi          3586.4                102          2000    965
7      Sumatera Selatan          8548.6                105           125     26
8  Kep. Bangka Belitung          1471.8                281           188     28
9              Bengkulu          2032.4                 92           149     16
10              Lampung          4438.6                264           293     44
11          DKI Jakarta         10605.4              16165         11114   4624
12           Jawa Barat         48738.8               1359          3091   1396
13               Banten         12023.0               1104          3482   2266
14          Jawa Tengah         36811.1               1186           306     38
15        DI Yogyakarta          3687.8                870         11508   6957
16           Jawa Timur         40921.1               1329          1438    731
17     Kalimantan Barat          5474.7                793          1414    630
18    Kalimantan Tengah          2700.1                287          1199    344
19   Kalimantan Selatan          4116.9                122           113     72
20     Kalimantan Timur          3803.5                 39           321     58
21     Kalimantan Utara           710.0                 18           834    446
22       Sulawesi Utara          2639.5                115          3003   2098
23            Gorontalo          1183.5                 32           503    121
24      Sulawesi Tengah          3015.0                 11           201     45
25     Sulawesi Selatan          9156.9                186          1057    809
26       Sulawesi Barat          1436.7                 51           186     28
27    Sulawesi Tenggara          2659.9                209          4807   2926
28                 Bali          4343.4                 77           343    116
29  Nusa Tenggara Barat          5387.2                102           243     40
30  Nusa Tenggara Timur          5394.4                 91           114     29
31               Maluku          1869.5                 42           711    466
32         Maluku Utara          1299.6                 41           719    585
33          Papua Barat          1149.4                 12           236     81
34                Papua          4356.8                 15          1696   1057
   Meninggal
1          2
2         91
3         31
4         10
5          0
6         81
7         10
8         12
9          2
10        16
11       625
12       175
13       150
14         8
15       831
16        79
17        13
18        53
19         1
20         4
21        53
22       182
23         7
24         2
25        76
26         5
27       163
28         6
29         8
30         2
31        15
32        31
33         3
34         7

Keterangan :

\(Y\) = Provinsi di Indonesia

\(X_{1}\) = Jumlah Penduduk (Ribu Jiwa)

\(X_{2}\) = Kepadatan Penduduk (Jiwa/\(KM^2\))

\(X_{3}\) = Jumlah Kasus Terkonfirmasi

\(X_{4}\) = Jumlah Kasus Sembuh

\(X_{5}\) = Jumlah Kasus Meninggal

2.3 Statistik Deskriptif

Statistik deskriptif memberikan gambaran umum tentang variabel-variabel yang digunakan dalam analisis klaster COVID-19. Dengan mengetahui statistika deskriptif, variasi dalam data (misalnya, rentang jumlah kasus atau kepadatan penduduk) yang bisa mempengaruhi pola klasterisasi dalam analisis persebaran COVID-19 dapat dipahami.

> statdes <- summary(data)
> statdes
   Provinsi         Jumlah.Penduduk Kepadatan.Penduduk Terkonfirmasi    
 Length:34          Min.   :  710   Min.   :   11.0    Min.   :   79.0  
 Class :character   1st Qu.: 2227   1st Qu.:   57.0    1st Qu.:  206.8  
 Mode  :character   Median : 4230   Median :  103.5    Median :  607.0  
                    Mean   : 7883   Mean   :  756.0    Mean   : 1588.4  
                    3rd Qu.: 6249   3rd Qu.:  276.8    3rd Qu.: 1459.8  
                    Max.   :48739   Max.   :16165.0    Max.   :11508.0  
     Sembuh          Meninggal     
 Min.   :  16.00   Min.   :  0.00  
 1st Qu.:  45.75   1st Qu.:  5.25  
 Median : 118.50   Median : 12.50  
 Mean   : 832.82   Mean   : 81.00  
 3rd Qu.: 926.00   3rd Qu.: 78.25  
 Max.   :6957.00   Max.   :831.00

2.4 Uji Asumsi

UJi asumsi digunakan untuk mengetahui dan memastikan bahwa data memenuhi syarat atau kondisi tertentu sebelum melakukan analisis statistik lebih lanjut.

2.4.1 Uji KMO

> kmo <- KMO(data[,2:6])
> kmo
Kaiser-Meyer-Olkin factor adequacy
Call: KMO(r = data[, 2:6])
Overall MSA =  0.6
MSA for each item = 
   Jumlah.Penduduk Kepadatan.Penduduk      Terkonfirmasi             Sembuh 
              0.85               0.40               0.57               0.57 
         Meninggal 
              0.93

2.4.2 Uji Non-Multikolinearitas

> korelasi <- cor(data[,2:6], method = 'pearson')
> korelasi
                   Jumlah.Penduduk Kepadatan.Penduduk Terkonfirmasi     Sembuh
Jumlah.Penduduk         1.00000000          0.1621390     0.0920357 0.05732123
Kepadatan.Penduduk      0.16213897          1.0000000     0.6623229 0.49911321
Terkonfirmasi           0.09203570          0.6623229     1.0000000 0.97576399
Sembuh                  0.05732123          0.4991132     0.9757640 1.00000000
Meninggal               0.09145505          0.5927972     0.9743683 0.96434274
                    Meninggal
Jumlah.Penduduk    0.09145505
Kepadatan.Penduduk 0.59279718
Terkonfirmasi      0.97436828
Sembuh             0.96434274
Meninggal          1.00000000

2.5 Standarisasi

Standarisasi diperlukan untuk menyetarakan skala variabel seperti jumlah penduduk, kepadatan penduduk, jumlah kasus terkonfirmasi, jumlah sembuh, dan jumlah meninggal. Variabel-variabel ini memiliki rentang nilai yang berbeda, sehingga tanpa standarisasi, variabel dengan nilai besar, seperti jumlah penduduk, dapat mendominasi hasil klaster.

> datastand <- scale(data[,2:6])
> head(datastand, 10)
   Jumlah.Penduduk Kepadatan.Penduduk Terkonfirmasi      Sembuh   Meninggal
1      -0.22355933         -0.2390580   -0.55637497 -0.52929607 -0.45231853
2       0.62183260         -0.1965488   -0.04475284  0.10790080  0.05725551
3      -0.20053732         -0.2241616   -0.31825689 -0.49201328 -0.28627755
4      -0.12425061         -0.2474145   -0.50292742 -0.51370509 -0.40651412
5      -0.50826363         -0.2470512   -0.54236803 -0.53200755 -0.46376963
6      -0.37696626         -0.2376047    0.15171300  0.08959833  0.00000000
7       0.05839883         -0.2365147   -0.53941920 -0.54692067 -0.40651412
8      -0.56249344         -0.1725693   -0.51619716 -0.54556493 -0.39506302
9      -0.51330847         -0.2412380   -0.53057271 -0.55369936 -0.45231853
10     -0.30219738         -0.1787458   -0.47749375 -0.53471903 -0.37216082
> rownames(datastand) <- 1:nrow(datastand)

2.6 Jarak Manhattan

Jarak Manhattan digunakan untuk mengukur kedekatan atau kesamaan antara wilayah berdasarkan variabel-variabel dalam data. Dengan menggunakan jarak Manhattan, lebih mudah mengidentifikasi wilayah yang memiliki karakteristik COVID-19 yang mirip dan mengelompokkan mereka secara lebih akurat.

> jarak <- dist(datastand, method = "manhattan")
> head(jarak,10)
 [1]  2.5462941  0.4793602  0.2225082  0.3208670  1.9341612  0.3648862
 [7]  0.5191250  0.3421347  0.3034121 17.0337562

2.7 Indeks Validitas

Indeks validitas penting untuk dilakukan karena digunakan untuk menilai kualitas sehingga dapat menentukan kluster optimal yang paling sesuai untuk pengelompokkan data penyebaran COVID-19 tahun 2022 berdasarkan karakteristiknya. Tiga elemen validitas yang gunakan adalah Connectivity, Dunn, dan Silhouette.

> library(clValid)
> inval <- clValid(datastand, 2:6, clMethods = "pam", validation = "internal", metric = "manhattan", method = "average")
> summary(inval)

Clustering Methods:
 pam 

Cluster sizes:
 2 3 4 5 6 

Validation Measures:
                        2       3       4       5       6
                                                         
pam Connectivity   3.8579 12.8694 14.8694 14.9317 21.2155
    Dunn           1.0317  0.1881  0.2446  0.4495  0.2316
    Silhouette     0.8232  0.6278  0.6091  0.6538  0.5124

Optimal Scores:

             Score  Method Clusters
Connectivity 3.8579 pam    2       
Dunn         1.0317 pam    2       
Silhouette   0.8232 pam    2       
> optimalScores(inval)
                 Score Method Clusters
Connectivity 3.8579365    pam        2
Dunn         1.0316812    pam        2
Silhouette   0.8232167    pam        2
> plot(inval)

2.8 K-Medoid 2 cluster

Metode K-Medoids digunakan untuk mengelompokkan wilayah (Provinsi) berdasarkan kesamaan karakteristik dalam variabel-variabel yang ada dalam data. Dari indeks validitas didapatkan cluster optimal dari ketiga elemen validitas adalah 2 cluster, maka pengelompokkan yang dilakukan pada data penyebaran COVID-19 adalah 2 cluster.

> library(cluster)
> kmedoid_result <- pam(datastand, k = 2)
> data$Cluster <- kmedoid_result$clustering
> print(kmedoid_result)
Medoids:
   ID Jumlah.Penduduk Kepadatan.Penduduk Terkonfirmasi     Sembuh  Meninggal
28 28      -0.3105499        -0.24668785    -0.4590636 -0.4859125 -0.4294163
15 15      -0.3680698         0.04142988     3.6563983  4.1513894  4.2941633
Clustering vector:
 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 
 1  1  1  1  1  1  1  1  1  1  2  1  1  1  2  1  1  1  1  1  1  1  1  1  1  1 
27 28 29 30 31 32 33 34 
 1  1  1  1  1  1  1  1 
Objective function:
    build      swap 
0.9580225 0.9580225 

Available components:
 [1] "medoids"    "id.med"     "clustering" "objective"  "isolation" 
 [6] "clusinfo"   "silinfo"    "diss"       "call"       "data"      
> kmedoid_result$medoids
   Jumlah.Penduduk Kepadatan.Penduduk Terkonfirmasi     Sembuh  Meninggal
28      -0.3105499        -0.24668785    -0.4590636 -0.4859125 -0.4294163
15      -0.3680698         0.04142988     3.6563983  4.1513894  4.2941633
> kmedoid_result$clusinfo
     size max_diss   av_diss diameter separation
[1,]   32 4.254859 0.8325921 4.532623   5.316142
[2,]    2 5.929816 2.9649078 5.929816   5.316142

2.9 Visualisasi Hasil

Visualisasi ini membantu menyajikan hasil klasterisasi secara intuitif, memungkinkan kita untuk mengidentifikasi wilayah-wilayah yang memiliki pola kasus COVID-19 serupa dengan lebih mudah. Visualisasi ini menggunakan PCA (Principal Component Analysis) berguna ketika data memiliki banyak variabel, seperti dalam analisis klaster persebaran COVID-19

> library(factoextra)
> fviz_cluster(kmedoid_result, geom = "point", ellipse.type = "convex", 
+              main = "Visualisasi K-Medoid Clustering dengan PCA")

3 HASIL DAN PEMBAHASAN

3.1 Statistik Deskriptif

> statdes <- summary(data)
> statdes
   Provinsi         Jumlah.Penduduk Kepadatan.Penduduk Terkonfirmasi    
 Length:34          Min.   :  710   Min.   :   11.0    Min.   :   79.0  
 Class :character   1st Qu.: 2227   1st Qu.:   57.0    1st Qu.:  206.8  
 Mode  :character   Median : 4230   Median :  103.5    Median :  607.0  
                    Mean   : 7883   Mean   :  756.0    Mean   : 1588.4  
                    3rd Qu.: 6249   3rd Qu.:  276.8    3rd Qu.: 1459.8  
                    Max.   :48739   Max.   :16165.0    Max.   :11508.0  
     Sembuh          Meninggal         Cluster     
 Min.   :  16.00   Min.   :  0.00   Min.   :1.000  
 1st Qu.:  45.75   1st Qu.:  5.25   1st Qu.:1.000  
 Median : 118.50   Median : 12.50   Median :1.000  
 Mean   : 832.82   Mean   : 81.00   Mean   :1.059  
 3rd Qu.: 926.00   3rd Qu.: 78.25   3rd Qu.:1.000  
 Max.   :6957.00   Max.   :831.00   Max.   :2.000

Dari statistik deskriptif dapat menunjukkan variasi atau perbedaan yang besar antar provinsi dalam jumlah penduduk, kepadatan penduduk, serta jumlah kasus terkonfirmasi, sembuh, dan meninggal akibat COVID-19 pada tahun 2022. Statistik deskriptif merupakan langkah penting untuk memahami karakteristik data, mengidentifikasi outlier, memastikan data dalam skala yang sama, dan mempersiapkan analisis clustering yang lebih baik dan akurat.

Interpretasi:

Jumlah penduduk antar provinsi cukup bervariasi, dengan rata-rata sekitar 7,883 ribu jiwa. Namun, terdapat perbedaan yang signifikan antara provinsi dengan jumlah penduduk terendah dan tertinggi.
Rata-rata kepadatan penduduk adalah 756 jiwa/km², namun nilai ini sangat dipengaruhi oleh provinsi-provinsi dengan kepadatan sangat tinggi, seperti DKI Jakarta. Perbedaan besar antara nilai minimum dan maksimum menunjukkan variasi besar dalam kepadatan antar provinsi.
Rata-rata jumlah kasus terkonfirmasi adalah sekitar 1,588 kasus, tetapi terdapat variasi yang besar, dengan beberapa provinsi memiliki kasus yang jauh lebih tinggi dari yang lain, menunjukkan adanya provinsi dengan tingkat infeksi yang sangat tinggi.
Rata-rata kasus sembuh adalah 832 kasus. Namun, terdapat beberapa provinsi yang memiliki kasus sembuh sangat tinggi, yang bisa mencerminkan provinsi dengan jumlah kasus tinggi secara keseluruhan atau efektivitas penanganan di provinsi tersebut.
Rata-rata jumlah kasus meninggal adalah 81 kasus, tetapi terdapat perbedaan besar antara provinsi dengan angka kematian rendah dan tinggi. Beberapa provinsi mungkin memiliki fasilitas kesehatan yang lebih baik atau penduduk yang lebih rentan terhadap dampak COVID-19.

3.2 Uji Asumsi

3.2.1 Uji KMO

Hipotesis:

\(H_0\): Ukuran sampel dan korelasi antar variabel tidak cukup untuk analisis clustering.

\(H_1\): Ukuran sampel dan korelasi antar variabel cukup untuk analisis clustering.

> kmo <- KMO(data[,2:6])
> kmo
Kaiser-Meyer-Olkin factor adequacy
Call: KMO(r = data[, 2:6])
Overall MSA =  0.6
MSA for each item = 
   Jumlah.Penduduk Kepadatan.Penduduk      Terkonfirmasi             Sembuh 
              0.85               0.40               0.57               0.57 
         Meninggal 
              0.93

Interpretasi:

Nilai KMO keseluruhan tepat pada ambang batas 0.6, yang menunjukkan bahwa data ini secara minimal cukup untuk analisis clustering.
Nilai KMO jumlah penduduk adalah 0,85 yang berarti cukup tinggi, menunjukkan bahwa variabel ini sangat cocok untuk analisis clustering.
Nilai KMO kepadatan penduduk adalah 0.40 yang berarti rendah, menunjukkan bahwa variabel ini kurang mendukung analisis clustering dan mungkin memiliki korelasi yang lemah dengan variabel lain.
Nilai KMO terkonfirmasi dan sembuh adalah 0,57 yang berarti cukup lemah, menunjukkan bahwa variabel ini cukup mendukung clustering, meskipun tidak optimal.
Nilai KMO meninggal adalah 0,93 yang berarti tinggi yang menunjukkan bahwa variabel ini sangat cocok untuk analisis clustering.

3.2.2 Uji Non-Multikolinearitas

\(H_0\): Tidak ada multikolinearitas tinggi antar variabel dalam data, sehingga variabel-variabel ini berdiri sendiri dan sesuai untuk analisis clustering.

\(H_1\): Terdapat multikolinearitas tinggi antar variabel, artinya beberapa variabel memiliki korelasi sangat tinggi dan dapat mempengaruhi hasil clustering.

> korelasi <- cor(data[,2:6], method = 'pearson')
> korelasi
                   Jumlah.Penduduk Kepadatan.Penduduk Terkonfirmasi     Sembuh
Jumlah.Penduduk         1.00000000          0.1621390     0.0920357 0.05732123
Kepadatan.Penduduk      0.16213897          1.0000000     0.6623229 0.49911321
Terkonfirmasi           0.09203570          0.6623229     1.0000000 0.97576399
Sembuh                  0.05732123          0.4991132     0.9757640 1.00000000
Meninggal               0.09145505          0.5927972     0.9743683 0.96434274
                    Meninggal
Jumlah.Penduduk    0.09145505
Kepadatan.Penduduk 0.59279718
Terkonfirmasi      0.97436828
Sembuh             0.96434274
Meninggal          1.00000000

Interpretasi:

Dari hasil uji diketahui tidak terdapat multikolinearitas yang terlalu tinggi antar variabel sehingga data masih sesuai untuk analisis clustering.

3.3 Standarisasi

> datastand <- scale(data[,2:6])
> head(datastand, 10)
   Jumlah.Penduduk Kepadatan.Penduduk Terkonfirmasi      Sembuh   Meninggal
1      -0.22355933         -0.2390580   -0.55637497 -0.52929607 -0.45231853
2       0.62183260         -0.1965488   -0.04475284  0.10790080  0.05725551
3      -0.20053732         -0.2241616   -0.31825689 -0.49201328 -0.28627755
4      -0.12425061         -0.2474145   -0.50292742 -0.51370509 -0.40651412
5      -0.50826363         -0.2470512   -0.54236803 -0.53200755 -0.46376963
6      -0.37696626         -0.2376047    0.15171300  0.08959833  0.00000000
7       0.05839883         -0.2365147   -0.53941920 -0.54692067 -0.40651412
8      -0.56249344         -0.1725693   -0.51619716 -0.54556493 -0.39506302
9      -0.51330847         -0.2412380   -0.53057271 -0.55369936 -0.45231853
10     -0.30219738         -0.1787458   -0.47749375 -0.53471903 -0.37216082
> rownames(datastand) <- 1:nrow(datastand)

Interpretasi:

Dari hasil standarisasi dapat diketahui seberapa jauh atau dekat nilai setiap provinsi dari rata-rata nasional, yang membantu dalam memahami karakteristik unik dari setiap provinsi dalam persebaran COVID-19 yang membantu dalam melakukan pengelompokkan.

Misalnya Provinsi 11 memiliki nilai standar sangat tinggi pada Kepadatan Penduduk (5.60) dan Terkonfirmasi (3.51), yang menunjukkan bahwa provinsi ini jauh di atas rata-rata nasional pada kedua variabel tersebut dan Provinsi 15 memiliki nilai standar tinggi pada Terkonfirmasi (3.66), Sembuh (4.15), dan Meninggal (4.29), menunjukkan bahwa provinsi ini memiliki kasus terkonfirmasi, sembuh, dan meninggal jauh di atas rata-rata nasional.

3.4 Jarak Manhattan

> jarak <- dist(datastand, method = "manhattan")
> jarak
             1           2           3           4           5           6
2   2.54629415                                                            
3   0.47936024  2.06693391                                                
4   0.22250818  2.34049898  0.42613850                                    
5   0.32086701  2.83914727  0.77221336  0.49937494                        
6   1.93416115  1.31187855  1.52773107  1.92698343  1.92020041            
7   0.36488622  2.21665711  0.66759551  0.26325659  0.65231639  2.17062039
8   0.51912501  2.78553415  0.77382584  0.56966874  0.23714656  1.94869904
9   0.34213466  2.83682427  0.76989036  0.50867838  0.05579629  1.91787741
10  0.30341210  2.44661003  0.43490171  0.32741635  0.43356617  1.75931267
11 17.03375625 15.25341758 16.55439601 16.82796108 17.32660937 15.40640895
12  7.27806325  4.73176910  6.79870301  7.07226808  7.57091637  5.65071596
13  4.55483782  2.52574919  4.07547758  4.34904265  4.84769094  2.92749053
14  3.28442099  3.81886017  3.45189170  3.13270999  3.57185115  4.97962277
15 14.06493898 13.20942869 13.63162275 14.05776125 14.06877116 12.14857075
16  4.97152942  2.93787514  4.49216918  4.76573425  5.26438253  4.09863774
17  1.21165277  1.75464655  0.95992531  1.17994398  1.50450589  1.24915636
18  1.20261344  1.85833493  0.76929721  1.19543571  1.03313133  1.02149981
19  0.14739811  2.62407278  0.55713887  0.31772647  0.21802332  1.81274719
20  0.26051607  2.59736933  0.53043542  0.32837950  0.26866408  1.71651758
21  1.27221713  2.14375249  0.86869365  1.24832639  0.97967528  1.22480564
22  3.73797779  2.95513276  3.32210123  3.73080007  3.55786204  1.80381664
23  0.61989677  2.70281343  0.65485985  0.63035934  0.32735492  1.78386658
24  0.28486359  2.74121840  0.67428449  0.40071942  0.14922849  1.82227155
25  1.66463304  0.88166111  1.18527280  1.45883787  1.95748616  1.00122323
26  0.43197612  2.86503574  0.79810183  0.52453676  0.13401131  1.94608888
27  4.88779205  4.03664167  4.45447582  4.88061432  4.71125594  2.95363090
28  0.25821763  2.47731731  0.42258504  0.28158461  0.36182995  1.69120322
29  0.10898068  2.45358233  0.38664842  0.14670991  0.39641084  1.85062655
30  0.03625572  2.54630698  0.47937307  0.21743444  0.32081094  1.94461460
31  0.91241522  2.28265425  0.70243029  0.88852449  0.61987337  1.36370739
32  1.13800353  2.15779443  0.73890330  1.11411279  0.84546167  1.23884758
33  0.48172092  2.86150595  0.79457205  0.53798790  0.18917906  1.94255910
34  1.42188948  1.61329012  1.29319246  1.43235205  1.52712649  0.69731173
             7           8           9          10          11          12
2                                                                         
3                                                                         
4                                                                         
5                                                                         
6                                                                         
7                                                                         
8   0.72086658                                                            
9   0.63786014  0.19761913                                                
10  0.52684548  0.33892413  0.42582021                                    
11 16.70411921 17.22503718 17.32428637 16.89846615                        
12  6.94842622  7.46934419  7.56859337  7.14277315 16.44706015            
13  4.22520079  4.74611876  4.84536794  4.41954773 12.72766839  4.19096571
14  2.95870582  3.50252600  3.55597077  3.22989380 18.36669812  4.01262260
15 14.29921826 13.96719898 14.06644816 13.77237278  9.07016186 14.75840436
16  4.64189238  5.16281035  5.26205953  4.83623932 17.38180178  2.30653383
17  1.42140099  1.40293371  1.50218289  1.11071598 15.82210347  6.06641048
18  1.43689272  0.93155914  1.03080833  0.91004724 16.29347804  6.53778504
19  0.48213271  0.41029276  0.25074207  0.25102939 17.11153488  7.35584188
20  0.56858854  0.40766449  0.27796752  0.22598742 17.08483143  7.32913843
21  1.51158298  0.91860725  0.97888904  1.10027526 16.63121459  6.87552159
22  3.97225708  3.57691419  3.55553904  3.55368283 13.76874732  5.04494013
23  0.89361593  0.32354240  0.32656869  0.55101482 17.19027553  7.43458253
24  0.60634809  0.30706389  0.15446472  0.33157009 17.22868050  7.47298750
25  1.33499601  1.92494597  1.95516316  1.58602184 15.36912321  5.61343021
26  0.69605977  0.12746065  0.10611032  0.45403168 17.35249784  7.59680484
27  5.12207133  4.66200274  4.70893294  4.63519174 12.61535343  6.19898799
28  0.54338789  0.47720151  0.37040674  0.20078678 16.96477941  7.20908641
29  0.34289605  0.45986797  0.38324194  0.20903159 16.94104443  7.18535143
30  0.33371708  0.49839648  0.31704621  0.30301964 17.03376908  7.27807608
31  1.15178108  0.62859080  0.61908713  0.75192445 16.77011635  7.01442335
32  1.37736938  0.78439365  0.84467544  0.96606165 16.64525653  6.88956354
33  0.80124448  0.23117095  0.18839283  0.50066421 17.34896805  7.59327506
34  1.69560864  1.63177359  1.53642993  1.35300753 15.84380869  6.08811569
            13          14          15          16          17          18
2                                                                         
3                                                                         
4                                                                         
5                                                                         
6                                                                         
7                                                                         
8                                                                         
9                                                                         
10                                                                        
11                                                                        
12                                                                        
13                                                                        
14  5.69861524                                                            
15 10.85371620 16.55233144                                                
16  4.81763021  1.70608876 15.67134641                                    
17  3.34318505  3.73046641 12.87781727  3.75987664                        
18  3.81455961  4.11364433 13.03563984  4.23125121  0.92941865            
19  4.63261645  3.38931437 13.92899197  5.04930805  1.28943140  1.06666643
20  4.60591300  3.35468871 13.84729541  5.02260460  1.26272795  0.98496986
21  4.15229616  4.32058536 13.37337639  4.56898776  1.26715520  0.47602183
22  1.65626416  6.77399293 10.51090912  5.89300790  3.04352652  2.66034860
23  4.71135710  3.67971610 13.93243733  5.12804870  1.36817206  0.89679749
24  4.74976208  3.46985507 13.97084230  5.16645367  1.40657703  0.99045878
25  2.89020478  3.97839954 13.07096225  3.41264394  1.15724151  1.10243023
26  4.87357941  3.58418224 14.09465963  5.29027100  1.53039436  1.05901980
27  2.15688661  7.85550184  9.35751523  6.97451681  4.12503543  3.74185751
28  4.48586099  3.32948807 13.82198105  4.90255258  1.14267594  0.95965551
29  4.46212600  3.17544031 13.98140437  4.87881760  1.11894095  1.11907883
30  4.55485065  3.26545348 14.07539243  4.97154224  1.21166560  1.21306688
31  4.29119792  3.96078345 13.51227814  4.70788951  0.97091508  0.64203834
32  4.16633811  4.18637176 13.38741833  4.58302970  1.02927290  0.67851136
33  4.87004963  3.63894919 14.09112985  5.28674122  1.52686458  1.05549001
34  3.36489026  4.48170881 12.70336166  4.41375203  0.80849791  1.17406954
            19          20          21          22          23          24
2                                                                         
3                                                                         
4                                                                         
5                                                                         
6                                                                         
7                                                                         
8                                                                         
9                                                                         
10                                                                        
11                                                                        
12                                                                        
13                                                                        
14                                                                        
15                                                                        
16                                                                        
17                                                                        
18                                                                        
19                                                                        
20  0.16098906                                                            
21  1.15370978  1.01170106                                                
22  3.60711735  3.52033422  2.86246727                                    
23  0.50138943  0.35938070  0.65232036  3.42152821                        
24  0.19347100  0.14384907  1.00193027  3.52582314  0.35978305            
25  1.74241167  1.71570822  1.26209138  2.79559339  1.82115232  1.85955729
26  0.34058353  0.28783734  0.87277872  3.58375051  0.22045837  0.18723674
27  4.75184504  4.67014847  4.01586116  1.37096483  4.57492210  4.67563739
28  0.17945483  0.12005202  1.01399950  3.49501987  0.36167914  0.26390109
29  0.22840712  0.22569249  1.19158913  3.65444319  0.55071988  0.29441476
30  0.15858877  0.26588295  1.27758401  3.74843124  0.62526365  0.28074030
31  0.79390787  0.65407911  0.38691667  3.00136902  0.42015918  0.65956803
32  1.01949618  0.87894076  0.32266119  2.87650921  0.54501900  0.88442968
33  0.36321357  0.29531860  0.79485613  3.58022073  0.15869252  0.20707415
34  1.34547801  1.25846240  1.31633656  2.37640047  1.35881994  1.38487182
            25          26          27          28          29          30
2                                                                         
3                                                                         
4                                                                         
5                                                                         
6                                                                         
7                                                                         
8                                                                         
9                                                                         
10                                                                        
11                                                                        
12                                                                        
13                                                                        
14                                                                        
15                                                                        
16                                                                        
17                                                                        
18                                                                        
19                                                                        
20                                                                        
21                                                                        
22                                                                        
23                                                                        
24                                                                        
25                                                                        
26  1.98337463                                                            
27  3.89381531  4.73714441                                                
28  1.59565620  0.38771843  4.64483412                                    
29  1.57192122  0.41145341  4.80425744  0.20049184                        
30  1.66464587  0.40616102  4.89824549  0.26358451  0.09398805            
31  1.40099314  0.58892136  4.15476292  0.65419759  0.83178723  0.91778210
32  1.27613333  0.73856512  4.02990310  0.87978589  1.05737553  1.14337041
33  1.97984485  0.10518472  4.73361462  0.38418864  0.46350889  0.48708779
34  1.28198422  1.53484864  3.52621472  1.16602318  1.35271259  1.42725636
            31          32          33
2                                     
3                                     
4                                     
5                                     
6                                     
7                                     
8                                     
9                                     
10                                    
11                                    
12                                    
13                                    
14                                    
15                                    
16                                    
17                                    
18                                    
19                                    
20                                    
21                                    
22                                    
23                                    
24                                    
25                                    
26                                    
27                                    
28                                    
29                                    
30                                    
31                                    
32  0.22558831                        
33  0.57885171  0.70371152            
34  1.03753610  1.09516726  1.50515937

Interpretasi:

Jarak Manhattan digunakan dalam analisis ini untuk mengelompokkan provinsi-provinsi yang mirip dalam hal persebaran COVID-19. Provinsi dengan jarak yang kecil akan cenderung berada dalam cluster yang sama, sementara provinsi dengan jarak besar kemungkinan besar akan berada di cluster yang berbeda.

Dari hasil uji jarak Manhattan menunjukkanperbedaan antar provinsi dalam hal karakteristik COVID-19, dengan beberapa provinsi sangat mirip dan beberapa lainnya sangat berbeda. Analisis ini membantu memahami pola persebaran COVID-19 dan menemukan provinsi dengan karakteristik serupa untuk dianalisis dengan metode clustering.

3.5 Indeks Validitas

> library(clValid)
> inval <- clValid(datastand, 2:6, clMethods = "pam", validation = "internal", metric = "manhattan", method = "average")
> summary(inval)

Clustering Methods:
 pam 

Cluster sizes:
 2 3 4 5 6 

Validation Measures:
                        2       3       4       5       6
                                                         
pam Connectivity   3.8579 12.8694 14.8694 14.9317 21.2155
    Dunn           1.0317  0.1881  0.2446  0.4495  0.2316
    Silhouette     0.8232  0.6278  0.6091  0.6538  0.5124

Optimal Scores:

             Score  Method Clusters
Connectivity 3.8579 pam    2       
Dunn         1.0317 pam    2       
Silhouette   0.8232 pam    2       
> optimalScores(inval)
                 Score Method Clusters
Connectivity 3.8579365    pam        2
Dunn         1.0316812    pam        2
Silhouette   0.8232167    pam        2
> plot(inval)

Interpretasi:

Connectivity: Nilai terendah pada Connectivity menunjukkan cluster yang lebih baik karena menunjukkan hubungan dalam cluster yang lebih kuat. Hasil uji menunjukkan bahwa jumlah cluster 2 memiliki nilai Connectivity yang paling rendah (3.8579), yang berarti bahwa jumlah cluster 2 merupakan jumlah yang paling tepat menurut uji Connectivity.
Dunn: Nilai Dunn yang lebih tinggi menunjukkan kualitas cluster yang lebih baik. Pada hasil uji ini, nilai Dunn tertinggi tercapai ketika jumlah cluster adalah 2 (1.0317). Hal ini mengindikasikan bahwa dengan 2 cluster, jarak antara cluster relatif besar dibandingkan jarak di dalam cluster, menunjukkan pemisahan yang baik menurut uji Dunn.
Silhouette: Nilai Silhouette tertinggi menunjukkan kualitas cluster yang lebih tinggi. Pada hasil ini, nilai Silhouette tertinggi tercapai saat jumlah cluster adalah 2 (0.8232), yang berarti bahwa jumlah cluster 2 merupakan jumlah pengelompokkan terbaik menurut uji Silhouette.

Kesimpulan:

Dari hasil uji validitas dengan metode PAM ada data persebaran COVID-19 tahun 2022 dengan tiga validitas yaitu Connectivity, Dunn, dan Silhouette, ketiganya menunjukkan bahwa pengelompokkan dengan 2 cluster adalah pilihan terbaik untuk data ini. Dengan 2 cluster, data menunjukkan struktur yang lebih baik dengan konektivitas yang lebih rendah, pemisahan cluster yang lebih jelas, dan keseragaman yang lebih tinggi dalam setiap cluster sehingga diharapkan hasilnya optimal.

3.6 K-Medoid 2 cluster

> library(cluster)
> kmedoid_result <- pam(datastand, k = 2)
> data$Cluster <- kmedoid_result$clustering
> print(kmedoid_result)
Medoids:
   ID Jumlah.Penduduk Kepadatan.Penduduk Terkonfirmasi     Sembuh  Meninggal
28 28      -0.3105499        -0.24668785    -0.4590636 -0.4859125 -0.4294163
15 15      -0.3680698         0.04142988     3.6563983  4.1513894  4.2941633
Clustering vector:
 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 
 1  1  1  1  1  1  1  1  1  1  2  1  1  1  2  1  1  1  1  1  1  1  1  1  1  1 
27 28 29 30 31 32 33 34 
 1  1  1  1  1  1  1  1 
Objective function:
    build      swap 
0.9580225 0.9580225 

Available components:
 [1] "medoids"    "id.med"     "clustering" "objective"  "isolation" 
 [6] "clusinfo"   "silinfo"    "diss"       "call"       "data"      
> kmedoid_result$medoids
   Jumlah.Penduduk Kepadatan.Penduduk Terkonfirmasi     Sembuh  Meninggal
28      -0.3105499        -0.24668785    -0.4590636 -0.4859125 -0.4294163
15      -0.3680698         0.04142988     3.6563983  4.1513894  4.2941633
> kmedoid_result$clusinfo
     size max_diss   av_diss diameter separation
[1,]   32 4.254859 0.8325921 4.532623   5.316142
[2,]    2 5.929816 2.9649078 5.929816   5.316142

Interpretasi:

Pusat cluster

Medoid cluster 1 merepresentasikan data dengan karakteristik yang lebih rendah dibanding rata-rata untuk semua variabel karena nilainya negatif dan menunjukkan kondisi kasus COVID-19 yang relatif lebih rendah atau ringan.
Medoid cluster 2 merepresentasikan data dengan jumlah kasus COVID-19 yang jauh lebih tinggi dibandingkan rata-rata, terutama pada variabel Terkonfirmasi, Sembuh, dan Meninggal, yang bernilai positif tinggi.

Clustering vector

Sebagian besar data (32 dari 34) termasuk dalam Cluster 1. Hanya dua data yang termasuk dalam Cluster 2 yaitu Provinsi DKI Jakarta dan Provinsi DI Yogyakarta. DKI Jakarta memiliki kepadatan penduduk tertinggi di Indonesia, yang sangat berperan dalam peningkatan risiko penyebaran COVID-19 dan walaupun DI Yogyakarta tidak sepadat Jakarta, wilayah perkotaan di provinsi ini juga memiliki tingkat kepadatan yang signifikan, terutama di kota Yogyakarta itu sendiri. Ini menunjukkan adanya satu cluster besar yang mencakup provinsi-provinsi dengan kasus COVID-19 yang relatif rendah dan satu cluster kecil (2 provinsi) dengan kondisi yang jauh lebih parah.

Objective function

Fungsi objektif ini menunjukkan kualitas hasil clustering, di mana semakin rendah nilainya, semakin baik pemisahan cluster. Pada hasil uji ini, nilai fungsi objektif cukup rendah, yang menandakan bahwa clustering sudah cukup optimal dalam memisahkan dua kelompok yaitu sebesar 0,9580.

Cluster Information

Cluster 1: Cluster 1 terdiri dari 32 provinsi dengan nilai jarak maksimum dan rata-rata yang relatif rendah. Jarak maksimum antar anggotanya sebesar 4.2549 dan jarak rata-rata antar anggota sebesar 0.8326. Diameter cluster, atau jarak terbesar antara dua titik dalam cluster, adalah 4.5326, dan separation (jarak minimum antara anggota Cluster 1 dengan medoid Cluster 2) sebesar 5.3161. Hal ini menunjukkan variasi yang lebih rendah antar anggota dalam hal jumlah penduduk, kepadatan,dan jumlah kasus COVID-19.
Cluster 2: Cluster 2 terdiri dari 2 provinsi namun memiliki jarak maksimum antar anggota yang cukup tinggi, yaitu 5.9298, serta jarak rata-rata antar anggota sebesar 2.9649. Diameter cluster ini sama dengan jarak maksimum, yaitu 5.9298, dengan separation yang juga sebesar 5.3161 (sama dengan Cluster 1, karena jarak antar cluster diukur secara simetris). Cluster 2 memiliki variasi yang cukup tinggi di antara anggotanya, terlihat dari jarak maksimum dan rata-rata yang lebih tinggi. Hal ini menunjukkan bahwa kedua provinsi dalam Cluster 2 memiliki karakteristik kasus COVID-19 yang signifikan dan cenderung jauh lebih besar daripada provinsi-provinsi di Cluster 1.

3.7 Visualisasi Hasil

> library(factoextra)
> fviz_cluster(kmedoid_result, geom = "point", ellipse.type = "convex", 
+              main = "Visualisasi K-Medoid Clustering dengan PCA")

Interpretasi:

Dari hasil plot dapat dilihat bahwa ada pemisahan yang signifikan antara kedua cluster. Cluster 2 menunjukkan provinsi-provinsi yang mengalami dampak COVID-19 yang lebih parah dibandingkan Cluster 1, yang terdiri dari mayoritas provinsi dengan tingkat kasus yang lebih rendah. Ini mengindikasikan bahwa provinsi dalam Cluster 2 mungkin memiliki faktor-faktor risiko yang berbeda, seperti kepadatan penduduk atau karakteristik lainnya, yang menyebabkan tingginya kasus COVID-19.

4 KESIMPULAN

Dari pengujian clustering menggunakan metode K-Medoid yang telah dilakukan, dapat diketahui bahwa penyebaran kasus COVID-19 pada tahun 2022 tiap provinsi dikelompokkan menjadi 2 cluster optimal berdasarkan karakteristiknya.

Terdapat 32 provinsi yang termasuk dalam cluster 1 yang merupakan kumpulan provinsi dengan karakteristik kasus COVID-19 yang jumlahnya lebih rendah dan populasi yang beragam tetapi tidak memiliki kepadatan penduduk atau tingkat kematian yang tinggi yang mencerminkan bahwa dampak pandemi di wilayah-wilayah ini tidak seberat di cluster 2. Sedangkan terdapat 2 provinsi yang termasuk dalam cluster 2 yaitu DKI Jakarta dan DI Yogyakarta yang menunjukkan karakteristik kasus COVID-19 yang signifikan. Kedua provinsi ini memiliki tingkat kasus terkonfirmasi, kesembuhan, dan kematian yang lebih tinggi dibandingkan dengan provinsi-provinsi dalam Cluster 1. Hal ini mengindikasikan bahwa dampak pandemi di DKI Jakarta dan DI Yogyakarta jauh lebih berat. Meskipun hanya terdiri dari dua anggota, Cluster 2 memiliki jarak maksimum dan rata-rata antar anggota yang tinggi, menunjukkan adanya perbedaan yang cukup besar dalam karakteristik kasus COVID-19 antara kedua provinsi ini dan provinsi-provinsi lainnya di Cluster 1. Perbedaan ini menunjukkan bahwa DKI Jakarta dan DI Yogyakarta mengalami dampak pandemi yang lebih signifikan, baik dari segi tingkat penyebaran, kesembuhan, maupun kematian, dibandingkan dengan provinsi lain di Indonesia pada tahun 2022.

5 SARAN

Perdalam analisis dengan mempertimbangkan faktor-faktor tambahan yang mungkin mempengaruhi penyebaran, seperti mobilitas penduduk, tingkat vaksinasi, dan kebijakan kesehatan di masing-masing wilayah. Selanjutnya, lakukan validasi hasil klasterisasi dengan data dari tahun-tahun sebelumnya atau data terbaru dapat membantu memperkuat temuan untuk penelitian penyebaran COVID-19 selanjutnya.

6 DAFTAR PUSTAKA

Badan Pusat Statistik Provinsi Sulawesi Utara. (n.d.). Jumlah Penduduk Menurut Provinsi di Indonesia. Diakses pada 4 November 2024, dari https://sulut.bps.go.id/id/statistics-table/2/OTU4IzI=/jumlah-penduduk-menurut-provinsi-diindonesia.html
Kementerian Kesehatan Republik Indonesia. (n.d.). Dashboard COVID-19. Diakses pada 4 November 2024, dari https://dashboardcovid19.kemkes.go.id/
Badan Pusat Statistik. (n.d.). Kepadatan Penduduk Menurut Provinsi (Jiwa/Km²). Diakses pada 4 November 2024, dari https://www.bps.go.id/id/statistics-table/2/MTQxIzI=/kepadatan-penduduk-menurut-provinsi--jiwa-km2-.html
Anderberg, M. R. (1973). Cluster Analysis. New York: Academic Press.
Pinasthika. (n.d.). Analisis K-Medoids. Diakses pada 6 November 2024, dari https://rpubs.com/Pinasthika/Analisis_KMedoids

Analisis Cluster dengan K-Medoid pada Persebaran Kasus COVID-19 di Indonesia Tahun 2022

Nayla Alma Humairra

2024-11-5

1 PENDAHULUAN

1.1 Latar Belakang

1.2 Tinjauan Pustaka

1.2.1 COVID-19

1.2.2 Analisis Cluster

1.2.3 Metode K-Medoid

1.3 Cuplikan Data

1.4 Latar Belakang Kasus

1.5 Latar Belakang Metode

1.6 Tujuan

2 SOURCE CODE

2.1 LIbrary

2.2 Impor Data

2.3 Statistik Deskriptif

2.4 Uji Asumsi

2.4.1 Uji KMO

2.4.2 Uji Non-Multikolinearitas

2.5 Standarisasi

2.6 Jarak Manhattan

2.7 Indeks Validitas

2.8 K-Medoid 2 cluster

2.9 Visualisasi Hasil

3 HASIL DAN PEMBAHASAN

3.1 Statistik Deskriptif

3.2 Uji Asumsi

3.2.1 Uji KMO

3.2.2 Uji Non-Multikolinearitas

3.3 Standarisasi

3.4 Jarak Manhattan

3.5 Indeks Validitas

3.6 K-Medoid 2 cluster

3.7 Visualisasi Hasil

4 KESIMPULAN

5 SARAN

6 DAFTAR PUSTAKA