Library:

> library(knitr)
> library(rmarkdown)
> library(prettydoc)
> library(readxl)
> library(DT)

1 PENDAHULUAN

1.1 Latar Belakang Kasus

Tata kelola pemerintahan adalah aspek kunci dalam mengukur kualitas sebuah pemerintahan dan dampaknya pada pembangunan sosial dan ekonomi. Dalam konteks ini, akan dikaji indikator tata kelola pemerintahan untuk 50 negara dan wilayah pada tahun 2014. Data ini berasal dari website data.world, yang telah mengumpulkan data berbagai negara mengenai:

Pengendalian Korupsi (Control of Corruption/ CC).
Efektivitas Pemerintah (Government Effectiveness/ GE).
Stabilitas Politik dan Ketiadaan Kekerasan (Political Stability and Absence of Violence/ PS).
Kualitas Peraturan (Regulatory Quality/ RQ)
Aturan Hukum (Rule of Law/ RL)
Suara dan Akuntabilitas (Voice and Accountability/ VA)

Indikator-indikator agregat ini menggabungkan pandangan dari sejumlah besar responden survei perusahaan, warga negara, dan pakar di negara-negara industri dan berkembang. Indikator-indikator ini didasarkan pada lebih dari 30 sumber data individual yang dihasilkan oleh berbagai lembaga survei, lembaga pemikir, lembaga swadaya masyarakat, organisasi internasional, dan perusahaan-perusahaan swasta.

Berikut data yang digunakan

> data <- read_excel("D:/Semester 5/Anmul/prak/data.anmul.xlsx")
> datatable(head(data), caption = "Indikator Tata Kelola Pemerintahan 2014")

1.2 Latar Belakang Metode

Indikator Tata Kelola Pemerintahan Manca Negara pada tahun 2014 adalah serangkaian metrik yang digunakan untuk mengukur kualitas dan efektivitas tata kelola pemerintahan di berbagai negara di seluruh dunia. Indikator ini mencakup berbagai aspek, seperti suara dan akuntabilitas, stabilitas politik dan ketiadaan Kekerasan, efektivitas pemerintah, kualitas peraturan, aturan hukum, pengendalian korupsi. Indikator ini digunakan untuk memahami sejauh mana sebuah negara memiliki tata kelola pemerintahan yang baik dan efisien.

Pada tahun 2014, untuk menganalisis data indikator tata kelola pemerintahan dari berbagai negara, digunakan metode Analisis Principal Component (PCA) dan K-Means Clustering. Metode PCA digunakan untuk mereduksi dimensi data dengan mengidentifikasi komponen utama yang menjelaskan sebagian besar variasi dalam data. Ini membantu dalam memahami hubungan antara indikator tata kelola pemerintahan yang mungkin saling terkait.

Setelah reduksi dimensi dengan PCA, metode K-Means Clustering digunakan untuk mengelompokkan negara-negara berdasarkan pola indikator tata kelola pemerintahan yang mereka miliki. K-Means memungkinkan pengelompokkan negara-negara dengan karakteristik serupa dalam kelompok yang sama. Hasil dari analisis ini dapat memberikan wawasan tentang bagaimana negara-negara berperilaku serupa dalam hal tata kelola pemerintahan, serta negara mana yang mungkin memerlukan perbaikan dalam hal tersebut.

Selain itu, analisis PCA dan K-Means Clustering pada data indikator tata kelola pemerintahan dapat membantu pemangku kebijakan dan peneliti dalam mengidentifikasi area yang memerlukan perbaikan atau pembangunan lebih lanjut dalam tata kelola pemerintahan suatu negara.

1.3 Penjelasan Metode

Dalam analisis ini, kami akan menggunakan dua metode utama, yaitu Principal Component Analysis (PCA) untuk mereduksi dimensi data, dan K-Means Clustering untuk mengelompokkan negara dan wilayah ke dalam klaster berdasarkan karakteristik tata kelola pemerintahan. PCA merupakan metode statistik yang digunakan untuk mereduksi dimensi data dengan mempertahankan informasi yang paling signifikan. PCA adalah alat yang umum digunakan dalam analisis data multivariat untuk mengidentifikasi pola dan hubungan antara variabel. Ini memungkinkan kita untuk memahami dimensi mana yang paling berkontribusi terhadap variasi dalam data, yang bisa berguna dalam pemahaman lebih mendalam tentang tata kelola pemerintahan.

K-Means Clustering adalah teknik analisis klaster yang berguna untuk mengelompokkan data ke dalam kelompok-kelompok yang serupa berdasarkan karakteristik tertentu. Metode ini akan membantu dalam mengidentifikasi pola atau hubungan dalam data indikator tata kelola pemerintahan yang mungkin tidak terlihat secara langsung. Metode K-Means Clustering telah digunakan dalam berbagai penelitian untuk mengelompokkan data yang kompleks. Penelitian-penelitian sebelumnya telah menunjukkan efektivitas metode ini dalam mengungkap pola dalam data tata kelola pemerintahan yang beragam. Penelitian ini juga akan merujuk pada literatur dan penelitian terkait tentang metode analisis klaster dalam konteks tata kelola pemerintahan.

1.4 Tujuan Penelitian

Tujuan utama dari penelitian ini adalah untuk menganalisis dan mengidentifikasi kelompok negara berdasarkan indikator tata kelola pemerintahan, khususnya dalam dimensi suara dan akuntabilitas, stabilitas politik dan ketiadaan Kekerasan, efektivitas pemerintah, kualitas peraturan, aturan hukum, pengendalian korupsi. Dengan demikian, penelitian ini bertujuan untuk menggambarkan dan memahami pola yang mungkin ada dalam data tata kelola pemerintahan dan potensi implikasi terhadap perkembangan sosial dan ekonomi di negara-negara yang diselidiki. Analisis klaster ini diharapkan dapat memberikan wawasan yang lebih mendalam tentang perbedaan dan kesamaan antara negara-negara dalam tiga dimensi tata kelola pemerintahan yang dipilih.

2 SOURCE CODE

2.1 Library

> library(readr)      #digunakan untuk membaca data
> library(dplyr)      #digunakan untuk data processing
> library(DT)         #digunakan untuk menampilkan tabel agar mudah dilihat di browser
> library(factoextra) #digunakan untuk memvisualisasikan hasil dari analisis multivariat
> library(corrplot)   #digunakan untuk memvisualisasikan korelasi data

2.2 DATA

Indikator tata kelola pemerintahan untuk 50 negara pada tahun 2014. Indikator-indikator ini menggabungkan pandangan dari sejumlah besar responden survei perusahaan, warga negara, dan pakar di negara-negara industri dan berkembang. Indikator-indikator ini didasarkan pada lebih dari 30 sumber data individual yang dihasilkan oleh berbagai lembaga survei, lembaga pemikir, lembaga swadaya masyarakat, organisasi internasional, dan perusahaan-perusahaan swasta.

> #Input data
> data <- read_excel("D:/Semester 5/Anmul/prak/data.anmul.xlsx")
> datatable(data, caption = "Indikator Tata Kelola Pemerintahan 2014")

2.3 Analisis PCA

2.3.1 Eksplorasi Korelasi

> library(corrplot)
> faktor = data[,-1]
> kor <- cor(faktor)
> corrplot(kor, method="number")

Dari hasil output yang telah disajikan di atas, dapat diketahui nilai korelasi antar variabel dalam dataset. Hubungan antar variabel secara keseluruhan memiliki hubungan positif. Terdapat beberapa variabel dengan korelasi lebih besar dari 0.9 diantaranya $X1$ dengan $X2$ sebesar 0.93, $X1$ dengan $X4$ sebesar 0.92, $X1$ dengan $X5$ sebesar 0.97, $X2$ dengan $X4,X5$ dan $X4$ dengan $X5$ sebesar 0.95.

2.4 Matriks Kovarians

2.4.1 Nilai Eigen dan Vektor Eigen

> sc <- scale(faktor)
> sc
               CC           GE         PS           RQ         RL          VA
 [1,] -1.65480677 -1.858028418 -1.6180780 -1.793665431 -1.8800478 -1.30650172
 [2,] -0.77957841 -0.567730910 -0.1089733 -1.742172651 -1.3564019  0.10654713
 [3,]  1.23657261  1.020327451  1.1459664  1.295901709  1.2142240  1.25972503
 [4,]  1.08028180  1.003785276  1.4319022  1.055602137  1.2300920  1.30845073
 [5,] -1.24845074 -1.394844702 -1.1256333 -1.553365791 -1.1025129 -0.75427578
 [6,]  1.11154001  0.904531702  0.5740953  0.832466723  0.9762031  1.29220892
 [7,] -0.42010958 -0.518104123 -0.2360558 -0.403360133 -0.1345612  0.17151490
 [8,]  0.47074776  0.672939681  1.4001314  0.643659897  0.3573487 -0.88421127
 [9,] -1.45162875 -1.262506450 -0.2519411 -0.883959549 -1.3881380 -1.24153398
[10,]  1.18968542  1.136123462  1.2730490  1.278737551  1.1666199  1.32469280
[11,]  1.09591103  0.755651079  0.3517008  1.072766295  0.9444669  0.82119241
[12,] -0.32633519  0.143586937 -0.7443858 -0.592167095 -0.5471308 -1.64758249
[13,] -0.46699690 -0.435392724 -1.3639130  0.214553227 -0.5629988 -0.31574329
[14,]  0.58015138  0.242840511  0.4946687  0.300374561  0.3890849  0.93488615
[15,]  0.15816625  0.391721134  0.4470127  0.145896323  0.2145363  0.26896657
[16,] -0.45136779 -0.303054538 -0.3949088  0.094403577 -0.7851516 -0.10459815
[17,]  1.33034701  1.268461648  1.4160167  1.313066139  1.3411685  1.40590240
[18,]  1.00213639  0.921073877  0.2246183  0.729481231  0.9603351  1.11354740
[19,]  1.22094363  1.119581287  0.8759161  1.158587629  1.1190157  1.34093462
[20,] -0.18567348  0.226298336 -0.1883999  0.111567735  0.2621404  0.39890212
[21,]  0.86147480  0.474432533  1.5589846  1.004109391  1.0872796  1.17851518
[22,] -1.60791954 -2.106162545 -0.8873536 -1.690679871 -1.7054992 -0.99790488
[23,]  1.20531440  0.987243101  1.3365901  0.935452215  1.0396754  1.27596685
[24,] -0.59202950 -0.584273216 -1.2686011 -0.969780883 -0.1662973  0.18775685
[25,] -0.74832020 -0.253427620 -0.6967298 -0.454853015 -0.5788668 -0.07211426
[26,]  1.12716899  1.036869888  1.1141959  1.192916217  1.1031475  1.22724114
[27,]  1.17405644  1.202292686  1.0506545  0.798138135  0.9920713  0.78870878
[28,] -1.01401458 -0.269969926 -0.1566292 -0.609331253 -0.8327558 -1.32274367
[29,] -1.32659615 -0.650442308 -1.4274542 -0.695152587 -0.7216794 -0.42943690
[30,] -1.13904718 -1.824943871 -0.8396976 -1.261573269 -1.1342490 -0.78675961
[31,]  0.36134438  0.739108905  0.2087330  0.506345817  0.5160293 -0.60809829
[32,] -0.07626986 -0.700069095  0.8600308 -0.780973921 -0.7534156 -0.59185634
[33,] -0.99838547 -0.038378035 -1.0303214  0.180224639 -0.7058113 -0.25077552
[34,] -1.29533800 -1.841486144 -1.3321423 -1.982472325 -1.6737631 -1.51764697
[35,] -0.68580390 -1.461013795 -0.9826654 -1.467544457 -1.0231725 -0.73803384
[36,]  1.25220185  1.218834861  1.0983106  1.210080647  1.2459602  1.42214447
[37,] -1.62354861 -1.742232472 -1.5386514 -1.364558897 -1.5785547 -0.85172739
[38,]  0.18942446  0.060875539  0.5105540  0.420524483  0.4525570 -1.17656620
[39,] -1.15467629 -1.378302396 -1.6021926 -1.210080523 -1.1818532 -0.93293711
[40,] -1.35785430 -1.179795117 -0.6331886 -0.712316881 -1.2611934 -0.16956592
[41,] -0.56077129 -0.021835860 -0.9667801 -0.351867387 -0.5312627 -0.08835620
[42,]  0.72081297  0.606770719  0.6852924  0.472017229  0.8175224  0.91864408
[43,]  0.83021659  0.557143932  1.0029987  0.317538991  0.7223141 -1.09535648
[44,]  0.08002084 -0.005293554 -0.5537620 -0.300374641  0.1986681 -1.71255025
[45,]  1.29908904  1.301546260  1.3048196  1.364558885  1.1824879 -0.33198524
[46,] -0.09189896  0.110502325 -0.2995970  0.077239147  0.1510639  0.43138601
[47,] -0.34196417 -0.170716221 -0.5696473 -0.420524427 -0.2456376 -0.91669516
[48,]  1.34597624  1.285004085  1.3524756  1.244408963  1.2776961  1.43838629
[49,] -0.48262588  0.127044762 -1.1732892  0.008582107 -0.2615057 -0.98166294
[50,]  1.15842721  1.053412063  0.2722742  1.261573393  1.1507517  1.21099907
attr(,"scaled:center")
      CC       GE       PS       RQ       RL       VA 
57.15385 62.17308 52.35922 61.77885 59.36538 55.38916 
attr(,"scaled:scale")
      CC       GE       PS       RQ       RL       VA 
30.76120 29.06306 30.55885 28.00990 30.29792 30.32955 
> s <- cov(sc)
> s_eig <- eigen(s)
> s_eig
eigen() decomposition
$values
[1] 5.21000799 0.39929777 0.24347249 0.07599499 0.05028012 0.02094664

$vectors
           [,1]        [,2]        [,3]        [,4]        [,5]         [,6]
[1,] -0.4284162 -0.12768565  0.03478082  0.59938127  0.12199352 -0.651771365
[2,] -0.4200657 -0.19791759 -0.36136774 -0.12326314 -0.79844667  0.032800744
[3,] -0.3910141 -0.26478128  0.83684546 -0.24107227 -0.06526795  0.119635903
[4,] -0.4208645 -0.10498154 -0.34413657 -0.63631113  0.49263005 -0.214116277
[5,] -0.4290782 -0.09847917 -0.19477738  0.40094629  0.30585774  0.716902111
[6,] -0.3547919  0.92395704  0.10735510 -0.04222171 -0.08430464  0.003321594

2.4.2 Scree Plot

Scree plot adalah sebuah metode visual yang digunakan dalam analisis faktor dan analisis komponen utama (principal component analysis, PCA) untuk membantu menentukan berapa banyak faktor atau komponen utama yang signifikan dalam sebuah dataset. Scree plot memberikan informasi tentang varian yang dijelaskan oleh setiap faktor atau komponen utama, dan sering digunakan untuk menentukan titik pemotongan (elbow point) di mana tambahan faktor atau komponen utama tidak lagi memberikan peningkatan yang signifikan dalam menjelaskan varian data.

> plot(s_eig$values, xlab="Eigenvalue Number", ylab = "Eigenvalue Size", main = "Scree Plot")
> lines(s_eig$values)

Berdasarkan output di atas, dapat diketahui bahwa dalam dataset ini jumlah komponen utama yang dipilih sebanyak 2 atau 3 komponen utama.

2.4.3 Nilai Kumulatif Eigen

> for (eg in s_eig$values){print(eg / sum(s_eig$values))}
[1] 0.8683347
[1] 0.06654963
[1] 0.04057875
[1] 0.01266583
[1] 0.008380021
[1] 0.003491107

Berdasarkan nilai kumulatif eigen dapat diketahui bahwa sebanyak 3 komponen utama sudah mencapai keragaman dalam data yaitu sekitar 97,55%.

2.4.4 Persamaan PCA

> s_eig$vectors[,1:3]
           [,1]        [,2]        [,3]
[1,] -0.4284162 -0.12768565  0.03478082
[2,] -0.4200657 -0.19791759 -0.36136774
[3,] -0.3910141 -0.26478128  0.83684546
[4,] -0.4208645 -0.10498154 -0.34413657
[5,] -0.4290782 -0.09847917 -0.19477738
[6,] -0.3547919  0.92395704  0.10735510

Maka didapat persamaan komponen utama (KU) sebagai berikut: $KU1 = 0.428X1 + 0.420X2 + 0.391X3 + 0.421X4 + 0.429X5 + 0.355X6$ $KU2 = 0.128X1 + 0.198X2 + 0.265X3 + 0.105X4 + 0.098X5 - 0.924X6$ $KU3 = 0.035X1 - 0.361X2 + 0.837X3 - 0.344X4 - 0.195 X5 + 0.107X6$

2.5 Matriks Korelasi

Mengulang langkah matriks kovarian dengan menyesuaikan beberapa bagian

> # Nilai Eigen dan Vektor Eigen
> kor_eig <- eigen(kor)
> kor_eig
eigen() decomposition
$values
[1] 5.21000799 0.39929777 0.24347249 0.07599499 0.05028012 0.02094664

$vectors
           [,1]        [,2]        [,3]        [,4]        [,5]         [,6]
[1,] -0.4284162 -0.12768565  0.03478082  0.59938127  0.12199352  0.651771365
[2,] -0.4200657 -0.19791759 -0.36136774 -0.12326314 -0.79844667 -0.032800744
[3,] -0.3910141 -0.26478128  0.83684546 -0.24107227 -0.06526795 -0.119635903
[4,] -0.4208645 -0.10498154 -0.34413657 -0.63631113  0.49263005  0.214116277
[5,] -0.4290782 -0.09847917 -0.19477738  0.40094629  0.30585774 -0.716902111
[6,] -0.3547919  0.92395704  0.10735510 -0.04222171 -0.08430464 -0.003321594
> # Scree plot
> plot(kor_eig$values, xlab="Eigenvalue Number", ylab="Eigenvalue Size",main = "Scree Plot")
> lines(kor_eig$values)

> # Nilai Kumulatif Eigen
> for (eg in kor_eig$values){print(eg / sum(kor_eig$values))}
[1] 0.8683347
[1] 0.06654963
[1] 0.04057875
[1] 0.01266583
[1] 0.008380021
[1] 0.003491107
> #persamaan pca
> kor_eig$vectors[,1:3]
           [,1]        [,2]        [,3]
[1,] -0.4284162 -0.12768565  0.03478082
[2,] -0.4200657 -0.19791759 -0.36136774
[3,] -0.3910141 -0.26478128  0.83684546
[4,] -0.4208645 -0.10498154 -0.34413657
[5,] -0.4290782 -0.09847917 -0.19477738
[6,] -0.3547919  0.92395704  0.10735510

Berdasarkan output di atas, dapat diketahui bahwa dalam dataset ini jumlah komponen utama yang dipilih sebanyak 2 atau 3 komponen utama. Didapat persamaan komponen utama (KU) yang sama dengan matriks kovarians sebagai berikut: $KU1 = 0.428X1 + 0.420X2 + 0.391X3 + 0.421X4 + 0.429X5 + 0.355X6$ $KU2 = 0.128X1 + 0.198X2 + 0.265X3 + 0.105X4 + 0.098X5 - 0.924X6$ $KU3 = 0.035X1 - 0.361X2 + 0.837X3 - 0.344X4 - 0.195 X5 + 0.107X6$

2.6 PCA

> PCA <- prcomp(x=faktor,scale=T,center=T)
> PCA
Standard deviations (1, .., p=6):
[1] 2.2825442 0.6319001 0.4934293 0.2756719 0.2242323 0.1447295

Rotation (n x k) = (6 x 6):
         PC1         PC2         PC3         PC4         PC5          PC6
CC 0.4284162 -0.12768565 -0.03478082  0.59938127 -0.12199352  0.651771365
GE 0.4200657 -0.19791759  0.36136774 -0.12326314  0.79844667 -0.032800744
PS 0.3910141 -0.26478128 -0.83684546 -0.24107227  0.06526795 -0.119635903
RQ 0.4208645 -0.10498154  0.34413657 -0.63631113 -0.49263005  0.214116277
RL 0.4290782 -0.09847917  0.19477738  0.40094629 -0.30585774 -0.716902111
VA 0.3547919  0.92395704 -0.10735510 -0.04222171  0.08430464 -0.003321594
> print(PCA$rotation[,1:3],digits=4)
      PC1      PC2      PC3
CC 0.4284 -0.12769 -0.03478
GE 0.4201 -0.19792  0.36137
PS 0.3910 -0.26478 -0.83685
RQ 0.4209 -0.10498  0.34414
RL 0.4291 -0.09848  0.19478
VA 0.3548  0.92396 -0.10736
> summary(PCA)
Importance of components:
                          PC1     PC2     PC3     PC4     PC5     PC6
Standard deviation     2.2825 0.63190 0.49343 0.27567 0.22423 0.14473
Proportion of Variance 0.8683 0.06655 0.04058 0.01267 0.00838 0.00349
Cumulative Proportion  0.8683 0.93488 0.97546 0.98813 0.99651 1.00000

Terdapat juga fungsi PCA yang telah disiapkan oleh Rstudio, didapat persamaan komponen utama (KU) yang sama seperti sebelum-sebelumnya yakni: $KU1 = 0.428X1 + 0.420X2 + 0.391X3 + 0.421X4 + 0.429X5 + 0.355X6$ $KU2 = 0.128X1 + 0.198X2 + 0.265X3 + 0.105X4 + 0.098X5 - 0.924X6$ $KU3 = 0.035X1 - 0.361X2 + 0.837X3 - 0.344X4 - 0.195 X5 + 0.107X6$

Dengan 3 Komponen Utama akan diperoleh keragaman data sebesar 0.97546 atau sekitar 97.55% dari data awal. Maka dari itu dapat digunakan hanya 3 Komponen untuk perhitungan analisis klusternya dengan menyimpan hasil perhitungan Komponen Utama diatas.

2.7 Komponen Utama

Berikut adalah data yang akan digunakan

> databaru= as.data.frame(PCA$x[,1:3])
> databaru  
          PC1          PC2         PC3
1  -4.1472452  0.173764189 -0.10299183
2  -1.8924974  0.655677258 -0.96203155
3   2.9197977  0.245046490 -0.08605972
4   2.8806588  0.261250939 -0.41072179
5  -2.9553531  0.308251036 -0.18698781
6   2.3083323  0.537456080  0.14567856
7  -0.6565658  0.432756283 -0.15850559
8   1.1423391 -1.483759960 -0.55885298
9  -2.6588826 -0.415688273 -0.63620021
10  2.9934438  0.260983512 -0.17108618
11  2.0725409  0.170502988  0.40561171
12 -1.4390896 -1.195898474  0.55269506
13 -1.1795677  0.248125591  0.99836287
14  1.1690325  0.540825660 -0.26759468
15  0.6559804 -0.004014873 -0.17490615
16 -0.8093619  0.192943736  0.12744957
17  3.2833538  0.233216739 -0.21070400
18  2.0182212  0.487985010  0.42856818
19  2.7793717  0.397727919  0.10182387
20  0.2428085  0.359844673  0.29252576
21  2.4851972  0.259723604 -0.73233874
22 -3.7179414  0.280534572 -0.76948385
23  2.7462122  0.275148789 -0.41623635
24 -1.4079954  0.818798606  0.48479218
25 -1.1648761  0.368315574  0.25596194
26  2.7649251  0.255890546 -0.10327860
27  2.4602591 -0.118813793 -0.10237069
28 -1.6921316 -0.851801296 -0.16110760
29 -2.1543012  0.423351748  0.67195779
30 -2.8796851  0.246174407 -0.48777859
31  0.7656692 -0.913521544  0.41989036
32 -0.8524103 -0.470091765 -1.32201377
33 -1.1626872  0.226766650  0.83454369
34 -3.9403517 -0.146701868 -0.35092876
35 -2.6102742  0.209833761 -0.30686619
36  3.0263689  0.372333976 -0.01577784
37 -3.5828448  0.471277142  0.02887111
38  0.2600880 -1.347231629 -0.05266857
39 -3.0475254  0.225886739  0.33639855
40 -2.2260040  0.616846979 -0.32181409
41 -1.0348305  0.339529982  0.60557596
42  1.7070144  0.325144957 -0.15623481
43  1.0368485 -1.598381582 -0.29933739
44 -0.8332420 -1.432897742  0.57789425
45  2.5773771 -1.335409736  0.06877792
46  0.1402783  0.444788302  0.30353784
47 -1.0485727 -0.550365862  0.33275861
48  3.2275482  0.288243715 -0.19157338
49 -1.0690508 -0.535017450  1.10196230
50  2.4996209  0.444647695  0.64081364

2.7.1 Menentukan Jumlah Cluster

Dalam metode k-means, banyaknya klaster ditentukan oleh pengguna sendiri. Oleh karena itu, jumlah klaster yang ideal untuk mengelompokkan objek harus dicari. Elbow plot merupakan plot antara banyak klaster dengan perubahan total dalam kluster. Klaster yang paling populer adalah bagian “siku”, atau titik di mana ada penurunan yang tajam sebelum titik tersebut dan penurunan yang tidak tajam setelahnya. Ini karena penambahan jumlah klaster tidak banyak mempengaruhi variasi dalam klaster.

> #Vektor yang berisikan jumlah klaster yang ingin dilihat nilai dari total within-cluster sum of squares
> jumlah_klaster <- c(1:9)
> 
> #Vektor kosong yang akan diisi nilai total within-cluster sum of squares
> within_ss <- c()  
> for (i in jumlah_klaster) {
+   within_ss <- c(within_ss, kmeans(x = databaru, centers = i, nstart = 25)$tot.withinss)
+ }
> 
> plot(x = jumlah_klaster, y = within_ss, type = "b", xlab = "Number of Cluster",
+      ylab = "Total Within Sum of Squares", main = "Elbow Plot")
> abline(v = 4, col = 'red')

Dilihat dari Elbow Plot diatas, banyaknya klaster yang dipilih adalah 4 klaster.

2.8 Analisis Klaster

Dengan menggunakan data yang telah distandardisasi, analisis klaster di R dapat dilakukan dengan menggunakan fungsi kmeans(). Ketika menggunakan algoritma K-Means untuk melakukan analisis klaster, salah satu hal yang perlu diperhatikan adalah inisiasi rata-rata/mean awal. Ini karena algoritma ini dimulai dengan menempatkan (menginisiasi) rata-rata/mean awal secara acak ke dalam data. Akibatnya, jika hanya menggunakan satu awal, hasil klaster yang dihasilkan dapat berbeda-beda. Untuk menghasilkan klaster yang ideal, algoritma KMeans harus diulang beberapa kali dengan nilai awal yang berbeda.

Dalam fungsi kmeans() terdapat parameter nstart yang digunakan untuk memberitahu fungsi berapa kali inisiasi awal yang pengguna inginkan. Pada contoh ini, parameter nstartakan diisi sebanyak 25 sehingga akan ada inisiasi rata-rata/mean awal yang berbeda sebanyak 25 kali. Setelah itu algoritma K-Means akan memilih hasil klaster terbaik dengan nilai total within-cluster variation yang terkecil dari ke-25 inisiasi rata-rata/mean awal. Total within-cluster variation yang kecil menunjukkan bahwa secara umum klaster yang terbentuk diisikan oleh observasi yang homogen atau serupa.

> set.seed(123)
> kmeans_clustering <- kmeans(x = databaru, centers = 4, nstart = 25)
> kmeans_clustering
K-means clustering with 4 clusters of sizes 14, 11, 8, 17

Cluster means:
         PC1        PC2         PC3
1 -1.1789059 -0.1418203  0.35016623
2 -3.0598732  0.2387142 -0.34180120
3  0.6766306 -0.5001814 -0.04217573
4  2.6323672  0.1977106 -0.04735931

Clustering vector:
 [1] 2 2 4 4 2 4 1 3 2 4 4 1 1 3 3 1 4 4 4 3 4 2 4 1 1 4 4 1 1 2 3 1 1 2 2 4 2 3
[39] 2 2 1 4 3 1 4 3 1 4 1 4

Within cluster sum of squares by cluster:
[1] 13.071184  7.443960  8.117819  7.614452
 (between_SS / total_SS =  87.4 %)

Available components:

[1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
[6] "betweenss"    "size"         "iter"         "ifault"

Output dari fungsi kmeans() terdiri atas beberapa informasi sebagai berikut :

cluster : vector yang berisikan lokasi klaster tiap objek.
centers : matriks yang berisikan rata-rata/mean nilai tiap klaster.
withinss : vektor yang berisikan simpangan tiap klaster yang terbentuk.
tot.withinss : total dari simpangan tiap klaster yang terbentuk. Biasa digunakan untuk membuat Elbow - Plot guna mengetahui banyak klaster yang sebaiknya dipilih.
size : jumlah objek pada tiap klaster.

2.8.1 Pengelompokan Objek

Setelah menentukan klaster tiap-tiap negara, akan dilakukan pengurutkan kembali berdasar klaster. Sintaks yang digunakan adalah penggunaan pipa %>% dalam bahasa pemrograman R, yang biasanya digunakan dengan paket dplyr untuk melakukan operasi pengolahan data. Sintaks tersebut terdiri dari beberapa tahapan, dan berikut penjelasan setiap bagian dari sintaks tersebut:

> klaster= data %>%
+   mutate (Klaster = kmeans_clustering$cluster) %>%
+   select(Country, Klaster) %>%
+   arrange(Klaster)
> klaster
# A tibble: 50 × 2
   Country     Klaster
   <chr>         <int>
 1 Brazil            1
 2 China             1
 3 Colombia          1
 4 El Salvador       1
 5 India             1
 6 Indonesia         1
 7 Kazakhstan        1
 8 Kenya             1
 9 Maldives          1
10 Mexico            1
# ℹ 40 more rows

klaster = data %>%: Ini adalah awal dari ekspresi pipa. data adalah objek data frame yang akan diolah. Dengan menggunakan pipa %>%, Anda akan mengalirkan data melalui serangkaian operasi pemrosesan data.
mutate(Klaster = kmeans_clustering$cluster) %>%: Bagian ini menggunakan fungsi mutate dari paket dplyr. Ini digunakan untuk menambahkan atau mengubah kolom dalam data frame. Dalam hal ini, Anda sedang menambahkan kolom baru dengan nama “Klaster” ke data frame. Kolom ini akan diisi dengan nilai dari kolom “cluster” dalam objek kmeans_clustering. Jadi, setiap baris data akan mendapatkan nilai klaster yang sesuai dari kmeans_clustering$cluster.
select(Country, Klaster) %>%: Setelah melakukan mutasi, Anda menggunakan fungsi select untuk memilih kolom tertentu dari data frame. Dalam hal ini, Anda memilih kolom “Country” (dari data asli) dan kolom “Klaster” (yang telah ditambahkan sebelumnya) untuk disimpan dalam data frame hasil.
arrange(Klaster): Terakhir, Anda menggunakan fungsi arrange untuk mengurutkan baris data dalam data frame berdasarkan nilai dalam kolom “Klaster”. Ini akan menghasilkan data yang diurutkan berdasarkan klaster.
klaster: Ini adalah nama objek hasil dari ekspresi tersebut, dan Anda mengeksekusi perintah ini untuk menampilkan hasilnya. Dengan sintaks tersebut, Anda akan menghasilkan data frame baru yang berisi dua kolom: “Country” dan “Klaster,” yang telah diurutkan berdasarkan kolom “Klaster.” Ini adalah langkah-langkah umum dalam analisis data, terutama ketika Anda ingin mengelompokkan atau mengurutkan data berdasarkan kriteria tertentu.

2.8.2 Visualisasi Data

Visualisasi data memiliki peran penting dalam analisis klaster karena membantu dalam pemahaman dan eksplorasi struktur data dengan cara yang lebih intuitif. Dengan visualisasi, pola, perbedaan, dan kesamaan antara kelompok data dapat diidentifikasi secara visual, yang seringkali sulit diinterpretasikan hanya dengan angka atau statistik ringkas. Visualisasi juga berperan dalam pemilihan metode klastering yang sesuai, pengenalan anomali, serta merancang analisis yang lebih mendalam. Selain itu, visualisasi memudahkan komunikasi hasil analisis klaster kepada pemangku kepentingan yang mungkin tidak memiliki latar belakang statistik yang mendalam.

> fviz_cluster(kmeans_clustering, geom = c("point", "text"), 
+              data = databaru)+ggtitle("k=4")

Syntax yang digunakan adalah fungsi fviz_cluster dari paket factoextra di R untuk membuat visualisasi dari hasil analisis klaster menggunakan K-means clustering. Berikut adalah penjelasan untuk masing-masing bagian dari sintaks tersebut:

fviz_cluster(kmeans_clustering, geom = c("point", "text"), data = databaru): Ini adalah pemanggilan fungsi fviz_cluster, yang digunakan untuk membuat visualisasi klaster.
+: Operator + digunakan untuk menambahkan elemen tambahan ke plot atau visualisasi yang sedang dibuat.
ggtitle("k=4"): Ini adalah fungsi yang digunakan untuk menambahkan judul ke plot. Dalam hal ini, judulnya adalah “k=4,” yang biasanya digunakan untuk menunjukkan berapa banyak klaster yang digunakan dalam analisis K-means.

Hasil dari sintaks ini adalah visualisasi klaster yang menunjukkan lokasi titik-titik klaster dan label teks yang mengidentifikasi klaster-klaster tersebut, dengan judul “k=4” di atas visualisasi. Visualisasi ini membantu dalam memahami sebaran data dalam klaster-klaster dan membantu dalam interpretasi hasil analisis klaster.

3 HASIL DAN PEMBAHASAN

3.1 Kesimpulan Analisis PCA

Dari persamaan yang terbentuk dapat di interpretasi kedua komponen utama. Variabel dengan loading (koefisien persamaan) yang tinggi (positif atau negatif) berkontribusi secara signifikan terhadap pembentukan komponen utama tersebut. Dengan demikian, variabel dengan loading tinggi mempengaruhi arah dan variasi komponen utama. Interpretasi dari ketiga komponen utama antara lain:

$KU1 = 0.428X1 + 0.420X2 + 0.391X3 + 0.421X4 + 0.429X5 + 0.355X6$ $KU2 = 0.128X1 + 0.198X2 + 0.265X3 + 0.105X4 + 0.098X5 - 0.924X6$ $KU3 = 0.035X1 - 0.361X2 + 0.837X3 - 0.344X4 - 0.195 X5 + 0.107X6$

Komponen utama 1 dapat mencakup variabel Control of Corruption ($X1$), Government Effectiveness ($X2$), Regulatory Quality ($X4$), dan Rule of Law ($X5$)
Komponen utama 2 dapat mencakup variabel Voice and Accountability ($X6$)
Komponen utama 3 dapat mencakup variabel Political Stability and Absence of Violence/Terrorism ($X3$)

3.2 Tabel Akhir Kmeans Klaster

> # Mengelompokkan data berdasarkan kluster
> cluster_summary <- klaster %>%
+   group_by(Klaster) %>%
+   summarize(Countries = paste(Country, collapse = ", "))
> datatable(cluster_summary)

3.3 Interpretasi Hasil

Dari output klastering yang dihasilkan, terdapat dua bagian utama dalam analisis data yang dilakukan. Pertama, melakukan analisis klaster menggunakan algoritma K-means clustering. Kedua, mengidentifikasi klaster dan negara-negara yang termasuk ke dalam klaster tersebut. Berikut kesimpulan dari analisis data yang dilakukan:

Klaster 1 terdiri dari negara-negara seperti Brazil, China, Colombia, El Salvador, India, dst.
Klaster 2 terdiri dari negara-negara seperti Afghanistan, Argentina, Bangladesh, Cambodia, Haiti, dst.
Klaster 3 terdiri dari negara-negara seperti Brunei Darussalam, Costa Rica, Croatia, Greece, Malaysia, dst.
Klaster 4 terdiri dari negara-negara seperti Australia, Austria, Belgium, Canada, Chile, dst.

4 Penutup

Berdasarkan hasil analisis PCA, data dengan 6 variabel dapat diringkas hanya menjadi 3 komponen utama yang sudah mencapai keragaman dalam data yaitu sekitar 97,55%. Analisis ini sangat membantu peneliti untuk melakukan penelitian secara efektif dan efisien. Dengan demikian, hasil analisis Klaster K-Means ini memberikan gambaran tentang bagaimana negara-negara dan wilayah dalam kelompok klaster yang berbeda memiliki karakteristik tata kelola pemerintahan yang berbeda, dan dikelompokkan ke 4 Kelompok berdasarkan 6 variabel yaitu, Pengendalian Korupsi, Efektivitas Pemerintah, Stabilitas Politik dan Ketiadaan Kekerasan, Kualitas Peraturan, Aturan Hukum, Suara dan Akuntabilitas, yang telah diringkas pada analisis PCA sebelumnya. Analisis semacam ini dapat membantu dalam pemahaman lebih mendalam tentang pola dan perbedaan dalam tata kelola pemerintahan di antara kelompok negara dan wilayah.

5 DAFTAR PUSTAKA

PPT Praktikum Analisis Multivariat I: https://classroom.google.com/u/3/c/NjIxMzYyOTgyMDUy

Nadhifan Humam F.https://rpubs.com/nadhifanhf/principal-component-analysis

Nadhifan Humam F. Analisis Klaster (K-Means Clustering): https://rpubs.com/nadhifanhf/k-means-clustering

Tania Salsabila. (2019). K-Means Clustering using RStudio: https://medium.com/@taniasalsabila.ts/k-means-clustering-using-rstudio-d6132830f6b6

Worldwide Gov. Indicators: https://data.world/agriculture/worldwide-gov-indicators

Afrizal Firdaus. (2020). Kmeans Clustering dan Implementasinya: https://medium.com/@afrizalfir/kmeans-clustering-dan-implementasinya-5e967dc604cf

Imad Dabbura. (2018). K-means Clustering: Algorithm, Applications, Evaluation Methods, and Drawbacks: https://towardsdatascience.com/k-means-clustering-algorithm-applications-evaluation-methods-and-drawbacks-aa03e644b48a

Indikator Tata Kelola Pemerintahan Manca Negara Tahun 2014: Analisis PCA dan K-Means Clustering

Agung Hari Purnomo

2023-11-09