1 PENDAHULUAN

1.1 Latar Belakang

Kesehatan merupakan salah satu indikator penting dalam indeks pembangunan manusia, karena keberhasilan pembangunan suatu daerah tidak hanya diukur dari aspek ekonomi, tetapi juga dari tingkat kesejahteraan dan kesehatan penduduk. Kesehatan merupakan aspek penting bagi setiap manusia karena siapa pun dapat mengalami gangguan kesehatan, terutama kelompok masyarakat yang rentan terhadap berbagai penyakit. Pada saat ini Indonesia, termasuk Provinsi Jawa Timur, tengah menghadapi triple burden dalam sektor kesehatan, yaitu tingginya kasus penyakit menular, meningkatnya prevalensi penyakit tidak menular, serta munculnya kembali penyakit yang sebelumnya dinyatakan terkendali.

Menurut data Badan Pusat Statistik (BPS) Jawa Timur dalam beberapa tahun terakhir jumlah kasus penyakit di Jawa Timur mengalami peningkatan dan penurunan pada beberapa tahun terakhir. penyakit menular seperti campak, AIDS, Infeksi Menular Seksual maupun penyakit tidak menular seperti DBD dan pneumonia masih menunjukkan pola fluktuatif dalam beberapa tahun terakhir. Kondisi ini menggambarkan bahwa upaya pengendalian penyakit di Jawa Timur belum sepenuhnya merata dan efektif di seluruh wilayah. Selain itu, perbedaan kondisi sosial, ekonomi, kepadatan penduduk, dan akses terhadap layanan kesehatan turut memengaruhi variasi penyebaran penyakit antar daerah. Oleh karena itu, diperlukan pemahaman mengenai pola distribusi dan karakteristik penyakit, baik menular maupun tidak menular, pada setiap kabupaten/kota di Jawa Timur. Salah satu langkah yang dapat dilakukan adalah mengelompokkan kabupaten/kota berdasarkan kemiripan karakteristik kasus penyakit yang dimilikinya. Pengelompokan ini diharapkan mampu memberikan informasi mengenai kondisi kesehatan masing-masing wilayah sehingga dapat digunakan sebagai dasar pertimbangan dalam penyusunan strategi kebijakan dan intervensi kesehatan. Salah satu metode yang dapat digunakan untuk tujuan tersebut adalah analisis cluster.

Analisis cluster merupakan suatu teknik multivariat yang bertujuan untuk mengelompokkan objek atau individu ke dalam kelompok-kelompok berdasarkan tingkat kemiripan di antara mereka, sehingga objek yang berada dalam satu cluster memiliki karakteristik yang relatif homogen, sedangkan antar cluster bersifat heterogen. Metode analisis cluster dalam penggunaanya dibedakan menjadi analisis cluster hierarki dan non hierarki. Perbedaan keduanya terletak pada pembentukan jumlah kelompok. Pada analisis cluster hierarki, cluster dibentuk dengan melakukan pendekatan-pendekatan tanpa menentukan jumlah kelompok terlebih dahulu, sedangkan pada analsis cluster non hierarki (k-means) jumlah kelompok sudah terbentuk atau ditentukan (Hair dkk., 2010).

1.2 Rumusan Masalah

Berdasarkan latar belakang yang telah dipaparkan, maka rumusan masalah dalam penelitian ini adalah :
1. Berapa jumlah cluster yang optimal untuk mengelompokkan kabupaten/kota di Jawa Timur berdasarkan jumlah kasus penyakit?
2. Bagaimana hasil pengelompokan wilayah di Jawa Timur menggunakan analisis cluster non-hierarki (k-means) serta apa karakteristik dari setiap cluster yang terbentuk?

1.3 Tujuan

Tujuan penelitian ini adalah :
1. Menentukan jumlah cluster yang optimal dalam pengelompokan kabupaten/kota di Jawa Timur berdasarkan data jumlah kasus penyakit.
2. Mengelompokkan kabupaten/kota di Jawa Timur menggunakan metode analisis cluster non-hierarki (k-means) serta mengetahui karakteristik dari setiap cluster yang terbentuk.

2 TINJAUAN PUSTAKA

2.1 Analisis Cluster

Analisis cluster merupakan metode analisis multivariat yang digunakan untuk mengelompokkan objek ke dalam beberapa kelompok sehingga objek dalam satu cluster memiliki kemiripan yang tinggi, sedangkan antarcluster bersifat berbeda. Menurut Hair dkk. (2010), metode ini bertujuan mengklasifikasikan objek berdasarkan karakteristik tertentu agar pola kesamaan dapat diidentifikasi secara sistematis. Pengelompokan dilakukan dengan mengukur tingkat kemiripan atau ketidaksamaan antar objek menggunakan ukuran jarak, seperti Euclidean atau Mahalanobis (Johnson dan Wichern, 2007). Secara umum, analisis cluster terdiri dari dua pendekatan, yaitu metode hierarki dan non-hierarki. Metode hierarki membentuk cluster secara bertahap tanpa menentukan jumlah kelompok di awal, sedangkan metode non-hierarki seperti k-means membutuhkan jumlah cluster yang sudah ditentukan sebelumnya.

2.2 Algoritma K-Means

Metode k-means merupakan salah satu teknik analisis cluster non-hierarki yang banyak digunakan untuk mengelompokkan objek berdasarkan kemiripan karakteristik tertentu. Menurut Hair dkk. (2010) k-means bekerja dengan membagi objek ke dalam sejumlah cluster yang telah ditentukan sebelumnya melalui proses iteratif yang bertujuan meminimalkan variasi di dalam cluster dan memaksimalkan perbedaan antarcluster. Setiap objek ditempatkan pada cluster dengan jarak terdekat menuju pusat cluster (centroid), kemudian centroid diperbarui hingga tercapai kondisi konvergen. Metode ini efisien untuk data berukuran besar dan mampu menghasilkan struktur pengelompokan yang jelas, namun sensitif terhadap pemilihan centroid awal dan keberadaan pencilan, sehingga standarisasi data dan evaluasi awal sangat dianjurkan (Johnson dan Wichern, 2007).

2.3 Euclidean Distance

Euclidean distance merupakan ukuran jarak yang paling umum digunakan dalam analisis cluster. Ukuran ini menghitung jarak lurus antara dua titik atau objek dalam ruang multidimensi berdasarkan perbedaan nilai antar variabel yang dimiliki oleh masing-masing objek. Metode ini dapat juga disebut sebagai jarak garis lurus. Metode Euclidean distance ini mengukur jumlah kuadrat perbedaan nilai antara dua objek dengan menggunakan rumus:
\[ d_{ij} = \sqrt{\sum_{k=1}^{p} (x_{ik} - x_{jk})^2} \]

di mana:

  • \(d_{ij}\) : jarak Euclidean antara objek \(i\) dan \(j\),
  • \(x_{ik}\) : nilai variabel ke-\(k\) dari objek \(i\),
  • \(x_{jk}\) : nilai variabel ke-\(k\) dari objek \(j\), dan
  • \(p\) : jumlah variabel yang digunakan dalam analisis.

Euclidean distance sensitif terhadap skala pengukuran variabel. Oleh karena itu, sebelum dilakukan perhitungan jarak, data umumnya perlu dinormalisasi atau distandarisasi agar setiap variabel memiliki pengaruh yang seimbang terhadap hasil pengelompokan (Hair dkk., 2010). Semakin kecil nilai jarak Euclidean antar dua objek, semakin besar tingkat kesamaan antara keduanya, dan sebaliknya.

2.4 Indeks Silhouette

Indeks Silhouette merupakan ukuran validitas internal klaster yang mengevaluasi kualitas pengelompokan dengan mempertimbangkan dua aspek penting yaitu cohesion (kekompakan dalam cluster) yang diwakili oleh nilai a(i), dan separation (keterpisahan antar cluster) yang diwakili oleh nilai b(i) (Kaufman & Rousseeuw,1990). Nilai silhouette untuk setiap objek dihitung sebagai:
\[ S(i) = \frac{b(i) - a(i)}{\max\{a(i), b(i)\}} \]

di mana:

  • \(a(i)\) : rata-rata perbedaan antara objek ke-\(i\) dengan seluruh objek lain dalam cluster yang sama,
  • \(b(i)\) : nilai minimum dari rata-rata perbedaan antara objek ke-\(i\) dengan seluruh objek pada cluster lain.
    Nilai ini berkisar antara –1 sampai 1, di mana nilai mendekati 1 menunjukkan objek terklaster dengan baik, nilai sekitar 0 menunjukkan objek berada di batas antar cluster, dan nilai negatif menunjukkan objek kurang tepat berada di cluster tersebut. Nilai silhouette rata-rata untuk seluruh objek digunakan untuk menentukan jumlah cluster optimal, yaitu jumlah cluster yang menghasilkan nilai rata-rata silhouette tertinggi.

3 Data

Data yang digunakan dalam penelitian ini adalah data sekunder yang diperoleh dari publikasi Badan Pusat Statistik (BPS) Provinsi Jawa Timur. Data yang digunakan adalah data tahun 2024 pada 38 kota dan kabupaten di Provinsi Jawa Timur. Variabel dalam penelitian adalah jumlah dari beberapa kasus penyakit yang menyerang masyarakat yaitu penyakit IMS, campak, AIDS, DBD, dan Pneumonia.

4 SOURCE CODE

Library

> # Library
> library(readxl)
> library(psych)
> library(NbClust)
> library(factoextra)
> library(ggplot2)
> library(knitr)

4.1 Import Data

> data_bps <- read_excel("Tabel_Penyakit_Jatim_2024.xlsx")
> datapenyakit <- data.frame(data_bps)

4.2 Statistika Deskriptif

> summary(datapenyakit)

4.3 Uji KMO dan MSA

> kmo <- KMO(datapenyakit[, 2:6])
> kmo

4.4 Matriks Korelasi

> korelasi <- cor(datapenyakit[, 2:6], method = "pearson")
> korelasi

4.5 Standarisasi Data

> data_stand <- scale(datapenyakit[, 2:6])
> rownames(data_stand) <- datapenyakit$Kabupaten.Kota
> data_stand

4.6 Penentuan Jumlah Cluster

> hasil_nb <- NbClust(data_stand , 
+                     distance = "euclidean",
+                     min.nc = 2,      
+                     max.nc = 10,      
+                     method = "kmeans",  
+                     index = "silhouette")    
> print(hasil_nb)
> 
> fviz_nbclust(data_stand, kmeans, method = "silhouette") +
+   labs(subtitle = "Silhouette Method")

4.7 K-Means

> k_optimal <- 2
> 
> km_result <- kmeans(data_stand, centers = k_optimal, nstart = 25)
> print(km_result)
> 
> print(km_result$centers)
> df_final <- cbind(datapenyakit[,2:6], cluster = km_result$cluster)
> df_final
> datapenyakit$cluster <- as.factor(km_result$cluster)
> kable(datapenyakit, caption = 'Tabel Kota/Kabupaten di Jawa Timur')
> c1 = datapenyakit$Kabupaten.Kota[datapenyakit$cluster == 1]
> c2 = datapenyakit$Kabupaten.Kota[datapenyakit$cluster == 2]
> c1 = paste(c1, collapse = ',')
> c2 = paste(c2, collapse = ',')
> 
> kelompok = data.frame(
+   Cluster = c('Cluster1','Cluster2'),
+   Anggota = c(c1,c2)
+ )
> kable(kelompok, caption = 'Anggota Kelompok Hasil Clustering')

4.8 Visualisasi

> fviz_cluster(km_result, data = data_stand,
+              geom = "point",
+              ellipse.type = "convex",
+              ggtheme = theme_bw(),
+              main = "Visualisasi Cluster K-Means")

5 HASIL DAN PEMBAHASAN

5.1 Statistika Deskriptif

 Kabupaten.Kota          IMS              Campak            AIDS       
 Length:38          Min.   :   0.00   Min.   :  0.00   Min.   :  8.00  
 Class :character   1st Qu.:   6.25   1st Qu.:  1.00   1st Qu.: 36.50  
 Mode  :character   Median :  15.00   Median :  3.00   Median : 75.50  
                    Mean   : 143.11   Mean   : 14.89   Mean   : 86.87  
                    3rd Qu.: 169.25   3rd Qu.: 10.75   3rd Qu.:125.00  
                    Max.   :1457.00   Max.   :175.00   Max.   :270.00  
      DBD           Pneumonia     cluster
 Min.   :  11.0   Min.   :  346   1: 5   
 1st Qu.: 385.8   1st Qu.: 1418   2:33   
 Median : 617.0   Median : 2221          
 Mean   : 839.1   Mean   : 2629          
 3rd Qu.:1026.0   3rd Qu.: 2635          
 Max.   :4157.0   Max.   :10257          

Berdasarkan hasil analisis statistika deskriptif, diketahui bahwa: variabel penyakit menular memiliki range yang cukup jauh berbeda sehingga diperlukan standarsasi data.

5.2 Uji KMO dan MSA

Kaiser-Meyer-Olkin factor adequacy
Call: KMO(r = datapenyakit[, 2:6])
Overall MSA =  0.58
MSA for each item = 
      IMS    Campak      AIDS       DBD Pneumonia 
     0.66      0.52      0.61      0.52      0.55 

Hasil uji validitas KMO dan MSA menunjukkan bahwa data memenuhi asumsi kecukupan sampel. Nilai KMO overall sebesar 0,58 > 0,5 mengindikasikan bahwa sampel representatif. Selain itu, seluruh variabel memiliki nilai MSA di atas 0,5, sehingga semua variabel penyakit (IMS, Campak, AIDS, DBD, Pneumonia) layak digunakan untuk tahapan analisis selanjutnya.

5.3 Matriks Korelasi

                 IMS       Campak        AIDS         DBD Pneumonia
IMS       1.00000000  0.358083720 0.285862690  0.08211397 0.6689599
Campak    0.35808372  1.000000000 0.007656296 -0.02144224 0.5559867
AIDS      0.28586269  0.007656296 1.000000000  0.28511345 0.4208005
DBD       0.08211397 -0.021442243 0.285113447  1.00000000 0.2720877
Pneumonia 0.66895991  0.555986674 0.420800530  0.27208767 1.0000000

Nilai mutlak dari korelasi antar semua variabel semuanya bernilai < 0.8, maka dapat disimpulkan bahwa tidak terjadi multikolinieritas.

5.4 Standarisasi Data

Standarisasi data dilakukan agar hasil cluster tidak bias karena adanya variabel tertentu yang mendominasi proses pengelompokkan. Standarisasi dilakukan menggunakan z-score.

                        IMS      Campak         AIDS         DBD   Pneumonia
Pacitan          -0.4845180 -0.41737860 -1.092973816 -0.45070845 -1.01619017
Ponorogo         -0.4392377 -0.48211488  0.002029287 -0.56399380 -0.69045543
Trenggalek       -0.4914842 -0.48211488 -0.985015763  0.30062079 -0.48866098
Tulungagung      -0.3904742 -0.44974674  1.883583913  0.77459626 -0.16561087
Blitar           -0.4566532 -0.38501047 -0.414380344  0.67693648 -0.16650574
Kediri           -0.3382277 -0.41737860  0.171677655 -0.38690406 -0.35263988
Malang            1.5078171 -0.19080165  0.711467916  4.32029734  2.59463306
Lumajang         -0.4914842 -0.19080165  1.189567863 -0.12257159 -0.43183637
Jember            0.3026633  1.00681940  2.192035492  0.90480930  0.54134089
Banyuwangi        0.4454706 -0.41737860  0.495551812 -0.37648702 -0.16695318
Bondowoso        -0.4740687  0.16524785 -0.306422291  0.15478218 -0.06314761
Situbondo        -0.4218221  1.52470959  0.680622759  0.26676540 -0.17053268
Probolinggo      -0.4845180  0.48892922 -0.167619081  2.57414047 -0.38172334
Pasuruan          0.1598561 -0.48211488  1.405483967  0.57146391  0.08898125
Sidoarjo          0.9365881 -0.15843351  2.824361227 -0.59915132  2.53691358
Mojokerto        -0.1153091  0.45656108 -0.290999713 -0.79967940 -0.04614497
Jombang          -0.1571063  1.20102822  0.618932443 -0.64993440  0.32880793
Nganjuk          -0.4601363 -0.48211488  1.390061388  0.60531930 -0.19469433
Madiun           -0.4775518 -0.41737860 -0.105928766 -0.65123653 -0.55980359
Magetan          -0.4705856 -0.41737860 -0.753677080 -0.31268263 -0.41930811
Ngawi            -0.4601363 -0.48211488 -0.738254501 -0.19288663 -0.07522843
Bojonegoro       -0.4531701 -0.19080165 -0.522338396 -0.26580593 -0.02287820
Tuban            -0.4984504 -0.19080165  0.048297023  0.04930962 -0.15800442
Lamongan         -0.4845180 -0.38501047  0.079142181  0.06363306  0.01112707
Gresik           -0.2929473 -0.38501047 -0.044238450 -0.48326171  1.14135501
Bangkalan        -0.4671025 -0.22316978 -1.000438342 -0.72545797  0.30375141
Sampang          -0.4845180  0.68313804 -0.784522238 -0.01189051 -0.74056847
Pamekasan        -0.4740687 -0.15843351 -0.599451291  0.17301201 -0.22422522
Sumenep          -0.4880011  0.03577531 -0.907902869  0.90220503 -0.30386915
Kota.Kediri       0.2956971 -0.48211488 -0.183041660 -0.75931336 -0.32131923
Kota.Blitar       0.5325482 -0.48211488 -0.923325448 -0.91687114 -0.67882205
Kota.Malang       4.5764311 -0.12606537  1.097032389 -0.08090342  1.42368828
Kota.Probolinggo -0.4949673 -0.44974674 -0.738254501 -0.45461484 -1.02155942
Kota.Pasuruan    -0.3521601 -0.41737860 -1.031283500 -0.81921136 -0.84168942
Kota.Mojokerto   -0.4705856 -0.44974674 -1.216354447 -1.07833530 -1.00858373
Kota.Madiun       0.7415344 -0.44974674 -0.121351345 -0.32961032 -0.68150668
Kota.Surabaya     2.5039846  5.18230901 -0.784522238 -0.79186662  3.41299684
Kota.Batu        -0.4287883 -0.48211488 -1.077551237 -0.51451284 -0.99113365
attr(,"scaled:center")
       IMS     Campak       AIDS        DBD  Pneumonia 
 143.10526   14.89474   86.86842  839.13158 2629.13158 
attr(,"scaled:scale")
       IMS     Campak       AIDS        DBD  Pneumonia 
 287.10030   30.89458   64.84000  767.97224 2234.94740 

5.5 Penentuan Jumlah Cluster

$All.index
     2      3      4      5      6      7      8      9     10 
0.5762 0.5092 0.3986 0.2161 0.2590 0.2514 0.2887 0.3243 0.3207 

$Best.nc
Number_clusters     Value_Index 
         2.0000          0.5762 

$Best.partition
         Pacitan         Ponorogo       Trenggalek      Tulungagung 
               2                2                2                2 
          Blitar           Kediri           Malang         Lumajang 
               2                2                1                2 
          Jember       Banyuwangi        Bondowoso        Situbondo 
               1                2                2                2 
     Probolinggo         Pasuruan         Sidoarjo        Mojokerto 
               2                2                1                2 
         Jombang          Nganjuk           Madiun          Magetan 
               2                2                2                2 
           Ngawi       Bojonegoro            Tuban         Lamongan 
               2                2                2                2 
          Gresik        Bangkalan          Sampang        Pamekasan 
               2                2                2                2 
         Sumenep      Kota.Kediri      Kota.Blitar      Kota.Malang 
               2                2                2                1 
Kota.Probolinggo    Kota.Pasuruan   Kota.Mojokerto      Kota.Madiun 
               2                2                2                2 
   Kota.Surabaya        Kota.Batu 
               1                2 

Nilai Silhoutte tertinggi terjadi pada cluster 2 yaitu sebesar 0.5762. Sehingga jumlah cluster optimal yang dapat digunakan adalah k = 2. Berdasarkan plot metode silhoutte diperoleh bahwa cluster optimal untuk membagi kabupaten/kota adalah sebanyak 2 cluster.

5.6 Algoritma K-Means

K-means clustering with 2 clusters of sizes 5, 33

Cluster means:
         IMS     Campak       AIDS        DBD  Pneumonia
1  1.9654968  1.1427656  1.2080750  0.7506371  2.1019145
2 -0.2978026 -0.1731463 -0.1830417 -0.1137329 -0.3184719

Clustering vector:
         Pacitan         Ponorogo       Trenggalek      Tulungagung 
               2                2                2                2 
          Blitar           Kediri           Malang         Lumajang 
               2                2                1                2 
          Jember       Banyuwangi        Bondowoso        Situbondo 
               1                2                2                2 
     Probolinggo         Pasuruan         Sidoarjo        Mojokerto 
               2                2                1                2 
         Jombang          Nganjuk           Madiun          Magetan 
               2                2                2                2 
           Ngawi       Bojonegoro            Tuban         Lamongan 
               2                2                2                2 
          Gresik        Bangkalan          Sampang        Pamekasan 
               2                2                2                2 
         Sumenep      Kota.Kediri      Kota.Blitar      Kota.Malang 
               2                2                2                1 
Kota.Probolinggo    Kota.Pasuruan   Kota.Mojokerto      Kota.Madiun 
               2                2                2                2 
   Kota.Surabaya        Kota.Batu 
               1                2 

Within cluster sum of squares by cluster:
[1] 63.07315 55.08119
 (between_SS / total_SS =  36.1 %)

Available components:

[1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
[6] "betweenss"    "size"         "iter"         "ifault"      
Tabel Kota/Kabupaten di Jawa Timur
Kabupaten.Kota IMS Campak AIDS DBD Pneumonia cluster
Pacitan 4 2 16 493 358 2
Ponorogo 17 0 87 406 1086 2
Trenggalek 2 0 23 1070 1537 2
Tulungagung 31 1 209 1434 2259 2
Blitar 12 3 60 1359 2257 2
Kediri 46 2 98 542 1841 2
Malang 576 9 133 4157 8428 1
Lumajang 2 9 164 745 1664 2
Jember 230 46 229 1534 3839 1
Banyuwangi 271 2 119 550 2256 2
Bondowoso 7 20 67 958 2488 2
Situbondo 22 62 131 1044 2248 2
Probolinggo 4 30 76 2816 1776 2
Pasuruan 189 0 178 1278 2828 2
Sidoarjo 412 10 270 379 8299 1
Mojokerto 110 29 68 225 2526 2
Jombang 98 52 127 340 3364 2
Nganjuk 11 0 177 1304 2194 2
Madiun 6 2 80 339 1378 2
Magetan 8 2 38 599 1692 2
Ngawi 11 0 39 691 2461 2
Bojonegoro 13 9 53 635 2578 2
Tuban 0 9 90 877 2276 2
Lamongan 4 3 92 888 2654 2
Gresik 59 3 84 468 5180 2
Bangkalan 9 8 22 282 3308 2
Sampang 4 36 36 830 974 2
Pamekasan 7 10 48 972 2128 2
Sumenep 3 16 28 1532 1950 2
Kota.Kediri 228 0 75 256 1911 2
Kota.Blitar 296 0 27 135 1112 2
Kota.Malang 1457 11 158 777 5811 1
Kota.Probolinggo 1 1 39 490 346 2
Kota.Pasuruan 42 2 20 210 748 2
Kota.Mojokerto 8 1 8 11 375 2
Kota.Madiun 356 1 79 586 1106 2
Kota.Surabaya 862 175 36 231 10257 1
Kota.Batu 20 0 17 444 414 2

Dapat dilihat hasil dari algoritma K-means kota/kabupaten sudah terbagi menjadi 2 kelompok.
Cluster 1 memiliki nilai rata-rata lebih tinggi untuk semua variabel penyakit sehinga dapat disimpulk an bahwa daerah ini memiliki kasus penyakit relatif tinggi.Cluster 2 memiliki nilai rata-rata lebih rendah maka dapat disimpulkan bahwa termasuk daerah dengan kasus penyakit lebih rendah atau normal.

Anggota Kelompok Hasil Clustering
Cluster Anggota
Cluster1 Malang,Jember,Sidoarjo,Kota.Malang,Kota.Surabaya
Cluster2 Pacitan,Ponorogo,Trenggalek,Tulungagung,Blitar,Kediri,Lumajang,Banyuwangi,Bondowoso,Situbondo,Probolinggo,Pasuruan,Mojokerto,Jombang,Nganjuk,Madiun,Magetan,Ngawi,Bojonegoro,Tuban,Lamongan,Gresik,Bangkalan,Sampang,Pamekasan,Sumenep,Kota.Kediri,Kota.Blitar,Kota.Probolinggo,Kota.Pasuruan,Kota.Mojokerto,Kota.Madiun,Kota.Batu

Berdasarkan hasil analisis K-Means, kabupaten/kota di Jawa Timur terbagi menjadi dua cluster. Cluster 1 terdiri dari 5 kabupaten/kota yang memiliki kasus penyakit relatif tinggi. Sementara itu, Cluster 2 mencakup sebagian besar kabupaten/kota lainnya yaitu sebanyak 33 kota/kabupaten yang menunjukkan kasus penyakit relatif lebih rendah.

5.7 Visualisasi

Cluster 1 memiliki sebaran titik yang lebih luas sehingga mencerminkan variasi karakteristik yang lebih besar antar wilayah. Sementara itu, Cluster 2 terlihat lebih rapat dan homogen, menandakan tingkat kemiripan yang lebih kuat di antara wilayah-wilayahnya. Kelompok 1 berisi kota/kabupaten yang memiliki jumlah kasus penyakit yang tinggi, sedangkan kelompok 2 berisi kota/kabupaten yang memiliki jumlah kasus penyakit yang relatif lebih rendah.

6 KESIMPULAN

Berdasarkan hasil analisis K-Means terhadap data kasus penyakit pada kabupaten/kota di Jawa Timur tahun 2024, diperoleh dua cluster utama yang menunjukkan perbedaan profil kesehatan yang jelas. Cluster 1 terdiri dari wilayah dengan nilai kasus penyakit yang jauh lebih tinggi serta variasi antar daerah yang lebih besar, yang sebagian besar merupakan kota atau kabupaten besar seperti Surabaya, Kota Malang, Sidoarjo, dan Jember. Tingginya jumlah kasus di wilayah ini dapat dipengaruhi oleh besarnya jumlah penduduk, mobilitas yang. Oleh karena itu, wilayah dalam cluster ini memerlukan perhatian lebih dalam pemantauan dan penanganan kesehatan. Sementara itu, Cluster 2 mencakup mayoritas kabupaten/kota yang memiliki tingkat kasus lebih rendah dan pola yang lebih homogen, menunjukkan kondisi kesehatan yang relatif stabil namun tetap perlu dijaga agar tidak terjadi peningkatan kasus di masa mendatang. Secara keseluruhan, hasil pengelompokan ini menunjukkan bahwa metode clustering mampu mengidentifikasi perbedaan beban penyakit antar wilayah dan dapat menjadi dasar yang informatif dalam menentukan prioritas intervensi kesehatan masyarakat di Jawa Timur.

7 Daftar Pustaka

  • BPS Jawa Timur. (2025). Provinsi Jawa Timur Dalam Angka 2025. Diakses pada 15 November 2025 dari https://jatim.bps.go.id/id/publication/2025/02/28/5ae8b994b 1bebd8cbc2e0781/provinsi-jawa-timur-dalam-angka 2025.html
  • Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2010). Multivariate Data Analysis (7th ed.). Pearson.
  • Johnson, R. A., & Wichern, D. W. (2007). Applied Multivariate Statistical Analysis (6th ed.). Pearson Prentice Hall.
  • Kaufman, L., & Rousseeuw, P. J. (1990). Finding Groups in Data: An Introduction to Cluster Analysis. Wiley.
  • Tim Asistensi Praktikum [PPT Praktikum Analisis Multivariat Kelas C].Google Classroom, diakses 15 November 2025.