Multidimensional Scaling dan K-means Clustering

Hisyam Maheswara Kusuma Saputro

2024-11-21


Pendahuluan

Latar Belakang Kasus

Indonesia, sebagai negara demokrasi terbesar ketiga di dunia, memiliki tantangan dan dinamika yang unik dalam mengukur dan meningkatkan kualitas demokrasinya. Indeks Demokrasi Indonesia (IDI) merupakan salah satu alat ukur yang digunakan untuk menilai tingkat demokrasi di berbagai provinsi di Indonesia. IDI mencakup tiga aspek utama: Kebebasan, Kesetaraan, dan Kapasitas Lembaga Demokrasi. Data ini dikumpulkan dan dipublikasikan oleh Badan Pusat Statistik (BPS) untuk periode 2021-2023 (lihat data).

Cuplikan Data

Berikut merupakan data yang dari ketiga aspek IDI pada tahun 2023

Provinsi Aspek Kebebasan Aspek Kesetaraan Aspek Kapasitas Lembaga Demokrasi
Aceh 85.71 74.47 73.12
Sumatera Utara 83.12 81.49 76.22
Sumatera Barat 72.15 81.48 74.09
Riau 79.39 80.13 66.3
Jambi 65.28 76.91 80.61
Sumatera Selatan 80.94 82.14 70.68
Bengkulu 74.62 79.27 67.91
Lampung 73.79 80.48 80.36
Kep. Bangka Belitung 68.34 78.98 79.83
Kep. Riau 79.72 78.82 74.25
DKI Jakarta 90.66 86.51 76.24
Jawa Barat 87.97 83.63 77.49
Jawa Tengah 85.84 80.24 76.73
DI Yogyakarta 77.76 89.21 83.51
Jawa Timur 87.29 83.24 75.34
Banten 83.11 80.59 62.96
Bali 85.23 85.75 84.28
Nusa Tenggara Barat 64.49 79.26 64.46
Nusa Tenggara Timur 90.05 75.66 66.97
Kalimantan Barat 92.16 78.55 75.13
Kalimantan Tengah 82.01 77.66 73.07
Kalimantan Selatan 81.4 82.6 76.92
Kalimantan Timur 83 81.08 83
Kalimantan Utara 84.59 81.24 75.48
Sulawesi Utara 8.15 78.09 72.25
Sulawesi Tengah 87.11 74.78 76.48
Sulawesi Selatan 81.7 79.52 67.53
Sulawesi Tenggara 71.72 87.06 70.27
Gorontalo 81.68 83.32 73.43
Sulawesi Barat 74.87 81.68 65.72
Maluku 70.55 77.6 58.31
Maluku Utara 65.58 74.84 54.47
Papua Barat 72.89 72.52 49.96
Papua 79.98 60.1 64.5

Latar Belakang Metode

Multi dimensional scaling (MDS) merupakan suatu metode yang merepresentasikan kesamaan atau ketidaksamaan jarak perbedaan antar objek. Multi dimensional scaling (MDS) merupakan suatu metode yang mempresentasikan kesamaan atau ketidaksamaan jarak perbedaan antar objek.

Analisis cluster adalah teknik multivariat yang mempunyai tujuan utama untuk mengelompokkan objek-objek berdasarkan karakteristik yang ada. Analisis cluster mengklasifikasi objek sehingga setiap objek yang memiliki sifat yang mirip (paling dekat kesamaannya) akan terkelompok ke dalam satu cluster (kelompok) yang sama.

Kedua metode tersebut akan digunakan untuk memetakan dan mengelompokkan 34 provinsi di Indonesia berdasarkan aspek Indeks Demokrasi Indonesia.

Tinjauan Pustaka

Multidimensional Scaling

Menurut Suryabrata (2000), multidimensional scaling adalah metode yang merepresentasikan kesamaan atau ketidaksamaan jarak perbedaan antar objek. MDS digunakan untuk menggambarkan struktur hubungan antar objek data berdasarkan kemiripannya secara grafis dalam suatu bidang multidimensi, untuk mendapatkan informasi dari data.

Analisis Kluster

Dalam buku Finding Groups in Data: An Introduction to Cluster Analysis yang ditulis oleh Leonard Kaufman & Peter J. Rousseeuw (2005), dikatakan bahwa analisis kluster adalah seni menemukan grup atau kelompok dalam data. Pada dasarnya, tujuan analisis ini adalah membentuk kelompok sedemikian rupa sehingga objek-objek dalam kelompok yang sama mirip satu sama lain, sedangkan objek dalam kelompok yang berbeda sebisa mungkin berbeda.

Menurut Vendramin et al. (2010), Clustering validity measures atau indeks validasi kluster adalah kriteria kuantitatif untuk mengukur kualitas kluster (partisi data). Beberapa indeks atau ukuran validitas yang banyak dikenal adalah Davies-Bouldin Index,Calinski-Harabasz Index, Dunn’s Index, dan Silhouette Index. Meskipun terdapat banyak indeks validitas, tujuannya tetaplah sama, yaitu mengukur kualitas kluster.

Tujuan

Penelitian ini bertujuan untuk memetakan dan mengelompokkan 34 Provinsi di Indonesia berdasarkan aspek-aspek Indeks Demokrasi Indonesia pada tahun 2023. Dengan melakukan pemetaan dan pengelompokkan, dapat diidentifikasi pola dan kelompok provinsi yang memiliki karakteristik demokrasi yang serupa. Hal ini penting untuk memahami faktor-faktor yang memengaruhi kualitas demokrasi di berbagai daerah dan untuk merumuskan kebijakan yang lebih efektif dalam meningkatkan kualitas demokrasi di tingkat daerah.


Source Code

Library

Tidak ada library tambahan yang digunakan.

Code

> #Menghitung tingkat kumulatif variasi yang digunakan untuk menentukan banyaknya dimensi 
> dist_matrix <- as.matrix(dist(datamds[,-1]))
> A <- dist_matrix^2
> V <- diag(sqrt(length(dist_matrix))) - (1 / sqrt(length(dist_matrix))) * 
+   matrix(rep(1, sqrt(length(dist_matrix))), nrow = sqrt(length(dist_matrix)), 
+          ncol = sqrt(length(dist_matrix)))
> eigenres <- eigen((-1 / 2) * V %*% A %*% V)
> cumulativeVar <- cumsum(eigenres$values) / sum(eigenres$values)
> print(cumulativeVar)
> 
> #Menentukan koordinat dan menggambar posisi semua data
> mds <- as.data.frame(cmdscale(dist(datamds[, -1])))
> colnames(mds) <- c("Dimensi 1", "Dimensi 2")
> ggpubr::ggscatter(mds, x = "Dimensi 1", y = "Dimensi 2", 
+                   label = datamds[, 1], size = 1, repel = TRUE)
> 
> #Menghitung disparsities untuk menghitung nilai STRESS
> disparsities <- matrix(0, nrow = sqrt(length(dist_matrix)), 
+                        ncol = sqrt(length(dist_matrix)))
> for (i in 1 : sqrt(length(dist_matrix))) {
+   for (j in 1 : sqrt(length(dist_matrix))) {
+     disparsities[i, j] <- sqrt(sum((mds[i, ] - mds[j, ])^2))
+   }
+ }
> stress <- sqrt(sum((dist_matrix - disparsities)^2) / sum(dist_matrix^2))
> cat("Nilai Stress : ", stress, "\n")
> 
> #Menentukan banyaknya cluster menggunakan metode Silhouette
> factoextra::fviz_nbclust(datamds[, -1], kmeans, method = "silhouette")
> 
> #Clustering menggunakan kmeans clustering dengan
> #banyaknya cluster sebanyak yang telah ditentukan 
> cluster <- as.factor(kmeans(mds, 3)$cluster)
> mds <- cbind(mds, cluster)
> ggpubr::ggscatter(mds, x = "Dimensi 1", y = "Dimensi 2", label = datamds[, 1], 
+                   color = "cluster", palette = "jco", size = 1, ellipse = TRUE, 
+                   ellipse.type = "convex", repel = TRUE)
> 
> #Melihat karakteristik cluster
> dataTercluster <- cbind(datamds[, -1], cluster)
> Karakteristik <- aggregate(cbind(dataTercluster$`Aspek Kebebasan`, 
+                                  dataTercluster$`Aspek Kesetaraan`,
+                                  dataTercluster$`Aspek Kapasitas Lembaga Demokrasi`),
+                            list(dataTercluster$cluster), mean)
> colnames(Karakteristik) <- c("Cluster", "Aspek Kebebasan", "Aspek Kesetaraan", 
+                               "Aspek Kapasitas Lembaga Demokrasi")
> print(Karakteristik)

Hasil dan Pembahasan

Hasil Analisis dan Interpretasi

 [1] 0.5947309 0.8830385 1.0000000 1.0000000 1.0000000 1.0000000 1.0000000
 [8] 1.0000000 1.0000000 1.0000000 1.0000000 1.0000000 1.0000000 1.0000000
[15] 1.0000000 1.0000000 1.0000000 1.0000000 1.0000000 1.0000000 1.0000000
[22] 1.0000000 1.0000000 1.0000000 1.0000000 1.0000000 1.0000000 1.0000000
[29] 1.0000000 1.0000000 1.0000000 1.0000000 1.0000000 1.0000000

Dua nilai kumulatif pertama memenuhi kriteria keseuaian yang baik, yaitu 0.8, sehingga solusi menggunakan 2 dimensi sudah sesuai untuk digunakan.

Nilai Stress :  0.1226184 

Berdasarkan output, terlihat bahwa beberapa provinsi memiliki kemiripan yang sama dengan provinsi-provinsi lain. Akan dilakukan clustering untuk melihat kumpulan-kumpulan provinsi yang memiliki kemiripan dengan lebih jelas. Didapat juga nilai STRESS sebesar 0.1226184 atau 12.6184%. Berdasarkan kriteria nilai STRESS, nilai yang diperoleh tergolong cukup.

Dengan metode silhouette, didapat banyaknya cluster optimal dengan menggunakan kmeans clustering adalah sebanyak 3 cluster.

Didapat plot mds yang sudah dilakukan clustering berdasarkan kedekatan koordinat. Dapat dilihat bahwa sebagian besar provinsi berkumpul di cluster 2, dan cluster 3 adalah cluster dengan anggota paling sedikit.

  Cluster Aspek Kebebasan Aspek Kesetaraan Aspek Kapasitas Lembaga Demokrasi
1       1        73.94222         76.22111                          61.62111
2       2        84.64895         80.46263                          74.97947
3       3        71.50667         82.35333                          78.11167

Dari hasil di atas, dapat dilihat bahwa cluster 1 memiliki nilai aspek kesetaraan dan aspek kapasitas lembaga demokrasi yang paling rendah dibanding kedua cluster lainnya. Selain itu dapat dilihat juga bahwa aspek kebebasan bernilai paling tinggi di cluster 2 dan aspek kesetaraan bernilai paling tinggi di cluster 3 namun pada cluster yang sama memiliki nilai aspek kebebasan yang terendah.


Penutup

Kesimpulan

Berdasarkan plot MDS dan cluster yang tertera, dapat dilihat bahwa terbentuk 3 cluster provinsi yang memilki kemiripan dalam aspek Indeks Demokrasi Indonesia serta karakteristik dari setiap cluster yang terbentuk. Informasi-informasi ini dapat digunakan oleh para pemangku kebijakan dalam meningkatkan demokrasi di setiap provinsi dengan lebih tepat sasaran.

Saran

  • Dapat digunakan metode clustering lain seperti hierarchical clustering.
  • Interpretasi tentang cluster yang terbentuk dapat lebih diperjelas.

Daftar Pustaka

Suryabrata. (2000). Metodologi Penelitian. Jakarta: PT raja Grafindo

Kaufman, L., & Rousseeuw, P. J. (2005). Finding groups in data: An introduction to cluster analysis. John Wiley & Sons, Inc. 

Vendramin, L., Campello, R. J. G. B., & Hruschka, E. R. (2010). Relative clustering validity criteria: A comparative overview. Dalam Statistical Analysis and Data Mining: The ASA Data Science Journal (Vol. 3, Issue 4, hlm. 209–235). Wiley. https://doi.org/10.1002/sam.10080