Principal Component Analysis (PCA)

Fiki Herianto

Oktober 2022

1 PENDAHULUAN

1.1 Latar Belakang

Pendapatan Asli Daerah (PAD) sebagai representasi otonomi daerah menunjukkan kemampuan suatu daerah untuk mengatur dan mengurus rumah tangganya sendiri dalam pengelolaan keuangan, baik penerimaan maupun pengeluaran. Pendapatan Asli Daerah yang merupakan salah satu sumber penerimaan daerah harus terus ditingkatkan agar tidak lagi tergantung pada bantuan dari pusat. Dalam upaya peningkatan PAD tersebut ada berbagai faktor yang dapat mempengaruhi, faktor-faktor tersebut harus dianalisis agar dapat diketahui yang manakah faktor yang berpengaruh dan yang tidak berpengaruh untuk digunakan sebagai acuan dalam pengambilan keputusan ataupun kebijakan oleh pemerintah daerah. Penelitian ini bertujuan untuk mengetahui faktor-faktor yang mempengaruhi PAD dari 38 kabupaten/kota di Provinsi Jawa Timur Tahun 2020, apakah Pajak (X1), Jumlah Penduduk(X2), UMK (X3) dan PDRB (X4) berpengaruh terhadap PAD Provinsi Jawa Timur baik secara langsung maupun tidak langsung, serta untuk mengetahui variabel manakah yang pengaruhnya paling dominan terhadap PAD. Berikut merupakan data faktor-faktor yang mempengaruhi PAD dari 38 kabupaten/kota di Provinsi Jawa Timur Tahun 2020.

1.2 Data

Data yang digunakan adalah data sekunder. Data ini diambil dari website BPS Jawa Timur tahun 2020, Sampel diambil dari 38 Kabupaten/Kota di Provinsi Jawa Timur

2 SOURCE CODE

2.1 Library yang Dibutuhkan

> # Library
> library(readxl)

2.2 Mengimport Dataset Excel

> # Data Faktor-faktor yang mempengaruhi PAD
> DataXPCA <- read_excel("C:/MATERI KULIAH STATISTIKA/SEMESTER 5/praktikum anmul/tugas praktikum 1/Data_PCA.xlsx")

2.3 Menampilkan Dataset

> # Data (DataXPCA)
> View(DataXPCA)
> head(DataXPCA)
# A tibble: 6 × 5
  PROVINSI        `X1 (Pajak)` `X2(Jumlah Penduduk)` `X3(UMK)` `X4(PDRB)`
  <chr>                  <dbl>                 <dbl>     <dbl>      <dbl>
1 kab bangkalan   261801099144               1060377   1954705     17515.
2 kab banyuwangi  595213540337               1708114   2314278     53295.
3 kab blitar      263661013500               1223745   1954705     11026.
4 kab bojonegoro  843284521812               1301635   2015780     24945.
5 kab bondowoso   232926089575                776151   1954705      4723.
6 kab gresik     1163672913876               1311215   4197030     69703.

2.4 Menghitung Banyak Komponen Utama

> #Komponen
> pr.out <- prcomp(x = DataXPCA[, c(-1)], 
+                  center = TRUE, scale. = TRUE) #Tidak mengambil kolom Kabupaten/Kota
> summary(pr.out)
Importance of components:
                          PC1    PC2    PC3     PC4
Standard deviation     1.4704 1.0138 0.6964 0.57010
Proportion of Variance 0.5405 0.2570 0.1212 0.08125
Cumulative Proportion  0.5405 0.7975 0.9187 1.00000
> #Scree Plot
> DataXPCA_cor <- cor(DataXPCA[ ,-1]) #tidak mengambil kolom nama kabupaten/kota
> DataXPCA_eig <- eigen(DataXPCA_cor)
> DataXPCA_eig 
eigen() decomposition
$values
[1] 2.1622001 1.0278253 0.4849585 0.3250161

$vectors
           [,1]       [,2]       [,3]       [,4]
[1,] -0.5985535  0.1304408 -0.1736804  0.7710733
[2,] -0.5732589 -0.1517423 -0.5867015 -0.5514797
[3,] -0.5361535  0.2956377  0.7308813 -0.3015797
[4,]  0.1601479  0.9341080 -0.3023724 -0.1018125
> scree_data <- data.frame(eigen_value = eigen(DataXPCA_cor)$values, PC = 1:4)
> plot(x = scree_data$PC, y = scree_data$eigen_value, type = 'b',
+      xlab = 'Komponen Utama ke-', ylab = 'Varians (Nilai Eigen)',
+ main = 'Scree Plot')

2.5 Menghitung Koefisien Komponen Utama

> pr.out <- prcomp(x = DataXPCA[, c(-1)], center = TRUE, scale. = TRUE)
> pr.out
Standard deviations (1, .., p=4):
[1] 1.4704421 1.0138172 0.6963896 0.5701018

Rotation (n x k) = (4 x 4):
                           PC1        PC2        PC3        PC4
X1 (Pajak)           0.5985535 -0.1304408  0.1736804 -0.7710733
X2(Jumlah Penduduk)  0.5732589  0.1517423  0.5867015  0.5514797
X3(UMK)              0.5361535 -0.2956377 -0.7308813  0.3015797
X4(PDRB)            -0.1601479 -0.9341080  0.3023724  0.1018125

3 HASIL DAN PEMBAHASAN

3.1 Penentuan banyaknya komponen utama

  1. Menghitung proporsi komulatif varians

Berdasarkan output pr.out maka dapat disimpulkan bahwa analisis akan menggunakan 2 komponen utama karena 2 komponen utama sudah dapat menangkap keragaman sebesar 79,75%. Proposi keragaman dianggap cukup mewakili total keragaman data jika nilai Proporsi kumulatif variansnya minimal 70%-80%.

  1. Scree Plot

Penentuan jumlah komponen berdasarkan posisi titik kurva ketika mulai melandai. Yang berarti banyaknya komponen utama yang diambil adalah titik dimana terdapat penurunan yang tajam sebelum titik tersebut dan disusul penurunan yang tidak tajam setelah titik tersebut. Pada gambar scree plot di output pada posisi titik 2 kurva mulai melandai. Yang berarti bahwa analisis akan menggunakan 2 komponen utama

  1. Menghitung nilai eigen

Berdasarkan output diatas maka dapat disimpulkan bahwa nilai eigen komponen utama 2 yaitu 1,027 lebih dari 1. Sehingga dapat ditentukan banyak komponen utama sejumlah 2.

Maka dari ketiga cara menentukan banyak komponen utama menghasilkan kesimpulan yang sama yaitu jumlah komponen utama sebanyak 2.

3.2 Menghitung koefisien komponen utama

Nilai komponen utama dapat dihitung dengan melihat nilai koefisien untuk masing-masing sebgai berikut :

KU 1= 0,5985_X1 + 0,5732_X2 + 0,5361_X3 - 0,1601_X4

KU 1 menggambarkan ukuran dari variabel Pajak, Jumlah Penududuk. Berdasarkan informasi tersebut, KU 1 dapat dinamakan variabel X1_1

KU 2= -0,1304_X1 + 0,1517_X2 - 0,2956_X3 - 0,9341_X4

KU 2 menggambarkan ukuran dari variabel UMK dan PDRB. Berdasarkan informasi tersebut, KU 2 dapat dinamakan variabel X2_2