Library yang Dibutuhkan
> library("knitr")
> library(rmarkdown)
> library(prettydoc)
> library(tinytex)
> library(readxl)
1 PENDAHULUAN
1.1 Latar Belakang
Manusia merupakan kekayaan bangsa yang sesungguhnya, sehingga sudah sepantasnya apabila manusia menjadi tujuan utama dalam pembangunan. Keberhasilan pembangunan suatu negara tidak hanya diukur dari tingginya tingkat pertumbuhan ekonomi, tetapi juga dari kualitas sumber daya manusianya. Salah satu tolak ukur yang dapat diamati untuk melihat kualitas sumber daya manusia adalah Indeks Pembangunan Manusia (IPM). IPM dibentuk oleh 3 dimensi dasar, yaitu umur panjang dan hidup sehat, pengetahuan, dan standar hidup layak. Pada 3 dimensi pembentuk IPM ini terdapat banyak indikator yang digunakan dalam perhitungan IPM sehingga dapat menyebabkan sulitnya penggambaran dan penginterpretasian indeks pembangunan manusia. Penelitian ini bertujuan untuk mereduksi beberapa indikator IPM menjadi beberapa variabel baru yang jumlahnya lebih kecil namun tanpa menghilangkan karakteristik dari indikator IPM tersebut.
1.2 Tinjauan Pustaka
PCA (Principal Component Analysis) atau disebut juga AKU (Analisis Komponen Utama) adalah analisis yang bertujuan untuk menjelaskan struktur ragam peragam dari sekumpulan variabel melalui beberapa variabel baru yang saling bebas dan merupakan kombinasi linier dari variabel asalnya. Variabel baru yang terbentuk disebut principal component atau komponen utama. Adapun tujuan dari analisis PCA adalah untuk menyederhanakan proses komputasi guna mempermudah menginterpretasi hasil analisis atau pemenuhan asumsi.
Kegunaan PCA :
- Membentuk variabel komposit sehingga jumlah variabel menjadi lebih sedikit dan lebih mudah diinterpretasi.
- Mentransformasi variabel bebas yang saring berkorelasi menjadi variabel komposit yang saling bebas.
- Pengelompokan objek berdasarkan ciri atau sifat yang terkandung di dalam variabel komposit.
Metode Penentuan Jumlah Komponen Utama :
- Proporsi Kumulatif Varians Proporsi keragaman dianggap cukup mewakili total keragaman data jika porporsi kumulatif variansnya minimal 70%-80%.
- Nilai Eigen
Jumlah komponen utama yang dipilih adalah yang memiliki nilai eigen>1.
- Scree Plot
Scree Plot merupakan plot antara komponen utama ke-k dengan nilai eigen pada komponen tersebut.Banyaknya komponen utama yang diambil adalah titik dimana terdapat penurunan yang tajam sebelum titik tersebut dan disusul penurunan yang tidak tajam setelah titik tersebut.
Penentuan jumlah komponen utama baik dilakukan dengan 2 metode untuk mengetahui akurasinya.
Tahapan analisis PCA :
- Memilih variabel berskala numerik tanpa memasukkan variabel respon.
- Melakukan standarisasi data ke normal baku jika variabel yang digunakan memiliki satuan dan rentang yang berbeda.
- Menentukan jumlah komponen utama.
- Menghitung koefisien komponen utama.
- Membentuk persamaan komponen utama.
1.3 Studi Kasus
Seorang peneliti ingin melakukan pengelompokan terhadap Kabupaten/ Kota di Provinsi Sumatera Utara berdasarkan indikator pembentuk IPM. Peneliti ini bertujuan untuk mempermudah dalam mencari kesamaan tertentu penyebab rendahnya IPM di Kabupaten/Kota di Sumatera Utara. Karakteristik yang diamati adalah , yaitu Angka Harapan Hidup, Rata Rata Lama Sekolah, dan Harapan Lama Sekolah. Kabupaten/Kota yang cenderung memiliki kesamaan karakteristik pada ketiga karakteristik tersebut akan berada dalam satu kelompok yang sama.
2 HASIL DAN PEMBAHASAN
2.1 Data
Data yang digunakan dalam penelitian ini bersumber dari Badan Pusat Statistik Provinsi Jawa Timur. Data yang digunakan adalah data indikator yang menggambarkan Indeks Pembangunan Manusia di Provinsi Jawa Timur tahun 2015. Data yang digunakan merupakan data numerik sebanyak 38 total yang terdiri dari data indikator pada 29 Kabupaten dan 9 Kota di Jawa Timur.
2.2 Analisis PCA
2.2.1 Input Data
> ipm <- read_excel("C:/Users/Novtry Rezki/Pictures/Rmark/PCA/data ipm.xlsx")
> ipm
# A tibble: 38 x 8
`Kabupaten/Kota Se Jawa ~` `Angka Harapan~` `Angka Melek H~` `Harapan Lama ~`
<chr> <dbl> <dbl> <dbl>
1 Kabupaten Pacitan 71.0 92.6 11.9
2 Kabupaten Ponorogo 72.1 89.1 13.3
3 Kabupaten Trenggalek 72.9 94.4 12.1
4 Kabupaten Tulungagung 73.3 96.8 12.7
5 Kabupaten Blitar 72.8 94.5 12.0
6 Kabupaten Kediri 72.1 95.0 12.2
7 Kabupaten Malang 72.0 93.9 12.0
8 Kabupaten Lumajang 69.3 89.2 11.6
9 Kabupaten Jember 68.2 88.4 12.0
10 Kabupaten Banyuwangi 70.0 91.4 12.2
# ... with 28 more rows, and 4 more variables: `Indeks Kesehatan` <dbl>,
# `Indeks Pendidikan` <dbl>, `Indeks PPP` <dbl>,
# `Rata-rata Lama Sekolah` <dbl>
Terdapat perbedaan rentang pada data sehingga dilakukan standarisasi, namun pada contoh kasus ini dilakukan standarisasi data pada tahap penentuan jumlah komponen utama.
2.2.2 Penentuan Jumlah Komponen Utama
- Metode Proporsi Kumulatif Varians
> #Metode Proporsi Kumulatif Varians
> pr.out <- prcomp(x = ipm[, c(-1)],
+ center = TRUE, scale. = TRUE) #Tidak mengambil kolom Kabupaten/Kota
> summary(pr.out)
:
Importance of components
PC1 PC2 PC3 PC4 PC5 PC6 PC72.3296 1.0117 0.55867 0.43560 0.20743 0.06166 0.02873
Standard deviation 0.7753 0.1462 0.04459 0.02711 0.00615 0.00054 0.00012
Proportion of Variance 0.7753 0.9215 0.96609 0.99319 0.99934 0.99988 1.00000 Cumulative Proportion
Berdasarkan metode proporsi kumulatif varians, banyak komponen utama yang dapat diambil sebanyak 2 komponen utama, Hal ini dikarenakan 2 komponen utama telah menangkap 92.15% dari total keragaman data (memenuhi nilai minimal keragaman data yang harus ditangkap yaitu 70%-80%).
- Metode Scree Plot
> #Metode Scree Plot
> ipm_cor <- cor(ipm[ ,-1]) #tidak mengambil kolom nama kabupaten/kota
> ipm_eig <- eigen(ipm_cor)
> ipm_eig
eigen() decomposition
$values
1] 5.4270476203 1.0234384101 0.3121108146 0.1897481883 0.0430271409
[6] 0.0038023753 0.0008254505
[
$vectors
1] [,2] [,3] [,4] [,5] [,6]
[,1,] -0.3573077 0.5235185 -0.23053662 0.19820457 0.13161098 0.69775921
[2,] -0.3930948 0.1337568 0.43204940 -0.62581545 0.49371634 -0.07373918
[3,] -0.3308971 -0.5092711 -0.65484818 -0.06008815 0.36544295 -0.06980934
[4,] -0.3561040 0.5278967 -0.22132239 0.22120605 -0.05786995 -0.70147361
[5,] -0.4139640 -0.2371489 -0.09514181 -0.13728367 -0.35743205 0.08620481
[6,] -0.3658484 -0.3209840 0.49962718 0.68167991 0.22012066 -0.01706338
[7,] -0.4198732 -0.1036110 0.15393883 -0.18163965 -0.65254461 0.05507835
[7]
[,1,] 0.040472894
[2,] -0.008982565
[3,] 0.245543051
[4,] -0.034426461
[5,] -0.780580867
[6,] 0.008072165
[7,] 0.572217649
[> scree_data <- data.frame(eigen_value = ipm_eig$values, PC = 1:7)
> scree_data
eigen_value PC1 5.4270476203 1
2 1.0234384101 2
3 0.3121108146 3
4 0.1897481883 4
5 0.0430271409 5
6 0.0038023753 6
7 0.0008254505 7
> plot(x = scree_data$PC, y = scree_data$eigen_value, type = 'b',
+ xlab = 'Komponen Utama ke-', ylab = 'Varians (Nilai Eigen)',
+ main = 'Scree Plot')
Berdasarkan metode scree plot, jumlah komponen utama yang diperoleh dengan metode scree plot sama dengan metode proporsi kumulatif varians yaitu sebanyak 2 komponen utama.
Jumlah komponen utama dengan metode proporsi kumulatif varians dan metode scree plot selaras, yaitu 2. Sehingga jumlah komponen utama yang digunakan yaitu sebanyak 2.
2.2.3 Penentuan Koefisien Komponen Utama
> pr.out <- prcomp(x = ipm[, c(-1)], center = TRUE, scale. = TRUE)
> pr.out
deviations (1, .., p=7):
Standard 1] 2.32960246 1.01165133 0.55866879 0.43560095 0.20742985 0.06166340 0.02873065
[
Rotation (n x k) = (7 x 7):
PC1 PC2 PC3 PC4-0.3573077 0.5235185 -0.23053662 0.19820457
Angka Harapan Hidup -0.3930948 0.1337568 0.43204940 -0.62581545
Angka Melek Huruf -0.3308971 -0.5092711 -0.65484818 -0.06008815
Harapan Lama Sekolah -0.3561040 0.5278967 -0.22132239 0.22120605
Indeks Kesehatan -0.4139640 -0.2371489 -0.09514181 -0.13728367
Indeks Pendidikan -0.3658484 -0.3209840 0.49962718 0.68167991
Indeks PPP -rata Lama Sekolah -0.4198732 -0.1036110 0.15393883 -0.18163965
Rata
PC5 PC6 PC7-0.13161098 -0.69775921 0.040472894
Angka Harapan Hidup -0.49371634 0.07373918 -0.008982565
Angka Melek Huruf -0.36544295 0.06980934 0.245543051
Harapan Lama Sekolah 0.05786995 0.70147361 -0.034426461
Indeks Kesehatan 0.35743205 -0.08620481 -0.780580867
Indeks Pendidikan -0.22012066 0.01706338 0.008072165
Indeks PPP -rata Lama Sekolah 0.65254461 -0.05507835 0.572217649 Rata
Pada penentuan jumlah komponen utama diperoleh jumlah komponen utama sebanyak 2, maka koefisien komponen utama yang digunakan yaitu PC1 dan PC2. Berdasarkan nilai eigen, nilai eigen terbesar dimiliki oleh PC1, Sehingga PC1 adalah indikator yang berperan besar dalam menjelaskan Indeks Pembangunan Manusia di Jawa Timur pada Tahun 2015.
2.2.4 Pembentukan Persamaan Komponen Utama
\[ PC_1 =-0.3573077X_1 - 0.3930948X_2 – 0.3308971X_3 – 0.3561040X_4 – 0.4139640X_5 – 0.3658484X_6 – 0.4198732X_7 \] PC1 menggambarkan ukuran dari rata rata lama sekolah penduduk, indeks pendidikan, dan angka melek huruf penduduk. Berdasarkan informasi tersebut, maka KU1 dapat dinamakan dengan tingkat pendidikan penduduk.
\[ PC_2 = 0.5235185X_1 + 0.1337568X_2 – 0.5092711X_3 + 0.5278967X_4 – 0.2371489X_5 – 0.3209840X_6 – 0.1036110X_7 \] PC2 menggambarkan ukuran dari indeks kesehatan, angka harapan hidup, dan harapan lama sekolah. Berdasarkan informasi tersebut, maka KU2 dapat dinamakan dengan kesehatan dan pendidikan.
3 KESIMPULAN
Dapat disimpulkan bahwa data Indeks Pembangunan Manusia di Jawa Timur pada tahun 2015 yang terdiri dari 7 variabel dapat direduksi menjadi 2 indikator namun tetap dapat menggambarkan keragaman dari data awal. Kedua indikator tersebut adalah
1. Tingkat pendidikan penduduk
2. Kesehatan dan pendidikan
Dari kedua indikator tersebut, yang berperan besar dalam menjelaskan Indeks Pembangunan Manusia di Jawa Timur pada tahun 2015 adalah PC1, yaitu tingkat pendidikan penduduk. Indikator baru yang terbentuk ini dapat digunakan untuk analisis lanjutan seperti regresi dan klasifikasi dan telah mengatasi masalah multikolinieritas karena memiliki sifat saling bebas satu sama lain.