Multidimensional Scaling dan K-means Clustering

Hisyam Maheswara Kusuma Saputro

2024-11-21

Pendahuluan

Latar Belakang Kasus

Indonesia, sebagai negara demokrasi terbesar ketiga di dunia, memiliki tantangan dan dinamika yang unik dalam mengukur dan meningkatkan kualitas demokrasinya. Indeks Demokrasi Indonesia (IDI) merupakan salah satu alat ukur yang digunakan untuk menilai tingkat demokrasi di berbagai provinsi di Indonesia. IDI mencakup tiga aspek utama: Kebebasan, Kesetaraan, dan Kapasitas Lembaga Demokrasi. Data ini dikumpulkan dan dipublikasikan oleh Badan Pusat Statistik (BPS) untuk periode 2021-2023 (lihat data).

Cuplikan Data

Berikut merupakan data yang dari ketiga aspek IDI pada tahun 2023

Provinsi	Aspek Kebebasan	Aspek Kesetaraan	Aspek Kapasitas Lembaga Demokrasi
Aceh	85.71	74.47	73.12
Sumatera Utara	83.12	81.49	76.22
Sumatera Barat	72.15	81.48	74.09
Riau	79.39	80.13	66.3
Jambi	65.28	76.91	80.61
Sumatera Selatan	80.94	82.14	70.68
Bengkulu	74.62	79.27	67.91
Lampung	73.79	80.48	80.36
Kep. Bangka Belitung	68.34	78.98	79.83
Kep. Riau	79.72	78.82	74.25
DKI Jakarta	90.66	86.51	76.24
Jawa Barat	87.97	83.63	77.49
Jawa Tengah	85.84	80.24	76.73
DI Yogyakarta	77.76	89.21	83.51
Jawa Timur	87.29	83.24	75.34
Banten	83.11	80.59	62.96
Bali	85.23	85.75	84.28
Nusa Tenggara Barat	64.49	79.26	64.46
Nusa Tenggara Timur	90.05	75.66	66.97
Kalimantan Barat	92.16	78.55	75.13
Kalimantan Tengah	82.01	77.66	73.07
Kalimantan Selatan	81.4	82.6	76.92
Kalimantan Timur	83	81.08	83
Kalimantan Utara	84.59	81.24	75.48
Sulawesi Utara	8.15	78.09	72.25
Sulawesi Tengah	87.11	74.78	76.48
Sulawesi Selatan	81.7	79.52	67.53
Sulawesi Tenggara	71.72	87.06	70.27
Gorontalo	81.68	83.32	73.43
Sulawesi Barat	74.87	81.68	65.72
Maluku	70.55	77.6	58.31
Maluku Utara	65.58	74.84	54.47
Papua Barat	72.89	72.52	49.96
Papua	79.98	60.1	64.5

Latar Belakang Metode

Multi dimensional scaling (MDS) merupakan suatu metode yang merepresentasikan kesamaan atau ketidaksamaan jarak perbedaan antar objek. Multi dimensional scaling (MDS) merupakan suatu metode yang mempresentasikan kesamaan atau ketidaksamaan jarak perbedaan antar objek.

Analisis cluster adalah teknik multivariat yang mempunyai tujuan utama untuk mengelompokkan objek-objek berdasarkan karakteristik yang ada. Analisis cluster mengklasifikasi objek sehingga setiap objek yang memiliki sifat yang mirip (paling dekat kesamaannya) akan terkelompok ke dalam satu cluster (kelompok) yang sama.

Kedua metode tersebut akan digunakan untuk memetakan dan mengelompokkan 34 provinsi di Indonesia berdasarkan aspek Indeks Demokrasi Indonesia.

Tinjauan Pustaka

Multidimensional Scaling

Menurut Suryabrata (2000), multidimensional scaling adalah metode yang merepresentasikan kesamaan atau ketidaksamaan jarak perbedaan antar objek. MDS digunakan untuk menggambarkan struktur hubungan antar objek data berdasarkan kemiripannya secara grafis dalam suatu bidang multidimensi, untuk mendapatkan informasi dari data.

Analisis Kluster

Dalam buku Finding Groups in Data: An Introduction to Cluster Analysis yang ditulis oleh Leonard Kaufman & Peter J. Rousseeuw (2005), dikatakan bahwa analisis kluster adalah seni menemukan grup atau kelompok dalam data. Pada dasarnya, tujuan analisis ini adalah membentuk kelompok sedemikian rupa sehingga objek-objek dalam kelompok yang sama mirip satu sama lain, sedangkan objek dalam kelompok yang berbeda sebisa mungkin berbeda.

Menurut Vendramin et al. (2010), Clustering validity measures atau indeks validasi kluster adalah kriteria kuantitatif untuk mengukur kualitas kluster (partisi data). Beberapa indeks atau ukuran validitas yang banyak dikenal adalah Davies-Bouldin Index,Calinski-Harabasz Index, Dunn’s Index, dan Silhouette Index. Meskipun terdapat banyak indeks validitas, tujuannya tetaplah sama, yaitu mengukur kualitas kluster.

Tujuan

Penelitian ini bertujuan untuk memetakan dan mengelompokkan 34 Provinsi di Indonesia berdasarkan aspek-aspek Indeks Demokrasi Indonesia pada tahun 2023. Dengan melakukan pemetaan dan pengelompokkan, dapat diidentifikasi pola dan kelompok provinsi yang memiliki karakteristik demokrasi yang serupa. Hal ini penting untuk memahami faktor-faktor yang memengaruhi kualitas demokrasi di berbagai daerah dan untuk merumuskan kebijakan yang lebih efektif dalam meningkatkan kualitas demokrasi di tingkat daerah.

Source Code

Library

Tidak ada library tambahan yang digunakan.

Code

> #Menghitung tingkat kumulatif variasi yang digunakan untuk menentukan banyaknya dimensi 
> dist_matrix <- as.matrix(dist(datamds[,-1]))
> A <- dist_matrix^2
> V <- diag(sqrt(length(dist_matrix))) - (1 / sqrt(length(dist_matrix))) * 
+   matrix(rep(1, sqrt(length(dist_matrix))), nrow = sqrt(length(dist_matrix)), 
+          ncol = sqrt(length(dist_matrix)))
> eigenres <- eigen((-1 / 2) * V %*% A %*% V)
> cumulativeVar <- cumsum(eigenres$values) / sum(eigenres$values)
> print(cumulativeVar)
> 
> #Menentukan koordinat dan menggambar posisi semua data
> mds <- as.data.frame(cmdscale(dist(datamds[, -1])))
> colnames(mds) <- c("Dimensi 1", "Dimensi 2")
> ggpubr::ggscatter(mds, x = "Dimensi 1", y = "Dimensi 2", 
+                   label = datamds[, 1], size = 1, repel = TRUE)
> 
> #Menghitung disparsities untuk menghitung nilai STRESS
> disparsities <- matrix(0, nrow = sqrt(length(dist_matrix)), 
+                        ncol = sqrt(length(dist_matrix)))
> for (i in 1 : sqrt(length(dist_matrix))) {
+   for (j in 1 : sqrt(length(dist_matrix))) {
+     disparsities[i, j] <- sqrt(sum((mds[i, ] - mds[j, ])^2))
+   }
+ }
> stress <- sqrt(sum((dist_matrix - disparsities)^2) / sum(dist_matrix^2))
> cat("Nilai Stress : ", stress, "\n")
> 
> #Menentukan banyaknya cluster menggunakan metode Silhouette
> factoextra::fviz_nbclust(datamds[, -1], kmeans, method = "silhouette")
> 
> #Clustering menggunakan kmeans clustering dengan
> #banyaknya cluster sebanyak yang telah ditentukan 
> cluster <- as.factor(kmeans(mds, 3)$cluster)
> mds <- cbind(mds, cluster)
> ggpubr::ggscatter(mds, x = "Dimensi 1", y = "Dimensi 2", label = datamds[, 1], 
+                   color = "cluster", palette = "jco", size = 1, ellipse = TRUE, 
+                   ellipse.type = "convex", repel = TRUE)
> 
> #Melihat karakteristik cluster
> dataTercluster <- cbind(datamds[, -1], cluster)
> Karakteristik <- aggregate(cbind(dataTercluster$`Aspek Kebebasan`, 
+                                  dataTercluster$`Aspek Kesetaraan`,
+                                  dataTercluster$`Aspek Kapasitas Lembaga Demokrasi`),
+                            list(dataTercluster$cluster), mean)
> colnames(Karakteristik) <- c("Cluster", "Aspek Kebebasan", "Aspek Kesetaraan", 
+                               "Aspek Kapasitas Lembaga Demokrasi")
> print(Karakteristik)

Hasil dan Pembahasan

Hasil Analisis dan Interpretasi

 [1] 0.5947309 0.8830385 1.0000000 1.0000000 1.0000000 1.0000000 1.0000000
 [8] 1.0000000 1.0000000 1.0000000 1.0000000 1.0000000 1.0000000 1.0000000
[15] 1.0000000 1.0000000 1.0000000 1.0000000 1.0000000 1.0000000 1.0000000
[22] 1.0000000 1.0000000 1.0000000 1.0000000 1.0000000 1.0000000 1.0000000
[29] 1.0000000 1.0000000 1.0000000 1.0000000 1.0000000 1.0000000

Dua nilai kumulatif pertama memenuhi kriteria keseuaian yang baik, yaitu 0.8, sehingga solusi menggunakan 2 dimensi sudah sesuai untuk digunakan.

Nilai Stress :  0.1226184

Berdasarkan output, terlihat bahwa beberapa provinsi memiliki kemiripan yang sama dengan provinsi-provinsi lain. Akan dilakukan clustering untuk melihat kumpulan-kumpulan provinsi yang memiliki kemiripan dengan lebih jelas. Didapat juga nilai STRESS sebesar 0.1226184 atau 12.6184%. Berdasarkan kriteria nilai STRESS, nilai yang diperoleh tergolong cukup.

Dengan metode silhouette, didapat banyaknya cluster optimal dengan menggunakan kmeans clustering adalah sebanyak 3 cluster.

Didapat plot mds yang sudah dilakukan clustering berdasarkan kedekatan koordinat. Dapat dilihat bahwa sebagian besar provinsi berkumpul di cluster 2, dan cluster 3 adalah cluster dengan anggota paling sedikit.

  Cluster Aspek Kebebasan Aspek Kesetaraan Aspek Kapasitas Lembaga Demokrasi
1       1        73.94222         76.22111                          61.62111
2       2        84.64895         80.46263                          74.97947
3       3        71.50667         82.35333                          78.11167

Dari hasil di atas, dapat dilihat bahwa cluster 1 memiliki nilai aspek kesetaraan dan aspek kapasitas lembaga demokrasi yang paling rendah dibanding kedua cluster lainnya. Selain itu dapat dilihat juga bahwa aspek kebebasan bernilai paling tinggi di cluster 2 dan aspek kesetaraan bernilai paling tinggi di cluster 3 namun pada cluster yang sama memiliki nilai aspek kebebasan yang terendah.

Penutup

Kesimpulan

Berdasarkan plot MDS dan cluster yang tertera, dapat dilihat bahwa terbentuk 3 cluster provinsi yang memilki kemiripan dalam aspek Indeks Demokrasi Indonesia serta karakteristik dari setiap cluster yang terbentuk. Informasi-informasi ini dapat digunakan oleh para pemangku kebijakan dalam meningkatkan demokrasi di setiap provinsi dengan lebih tepat sasaran.

Saran

Dapat digunakan metode clustering lain seperti hierarchical clustering.
Interpretasi tentang cluster yang terbentuk dapat lebih diperjelas.

Daftar Pustaka

Suryabrata. (2000). Metodologi Penelitian. Jakarta: PT raja Grafindo

Kaufman, L., & Rousseeuw, P. J. (2005). Finding groups in data: An introduction to cluster analysis. John Wiley & Sons, Inc.

Vendramin, L., Campello, R. J. G. B., & Hruschka, E. R. (2010). Relative clustering validity criteria: A comparative overview. Dalam Statistical Analysis and Data Mining: The ASA Data Science Journal (Vol. 3, Issue 4, hlm. 209–235). Wiley. https://doi.org/10.1002/sam.10080