data <- as.data.frame(state.x77)
colnames(data) <- c("Population","Income","Illiteracy","LifeExp","Murder","HSGrad","Frost","Area")
summary(data)
## Population Income Illiteracy LifeExp
## Min. : 365 Min. :3098 Min. :0.500 Min. :67.96
## 1st Qu.: 1080 1st Qu.:3993 1st Qu.:0.625 1st Qu.:70.12
## Median : 2838 Median :4519 Median :0.950 Median :70.67
## Mean : 4246 Mean :4436 Mean :1.170 Mean :70.88
## 3rd Qu.: 4968 3rd Qu.:4814 3rd Qu.:1.575 3rd Qu.:71.89
## Max. :21198 Max. :6315 Max. :2.800 Max. :73.60
## Murder HSGrad Frost Area
## Min. : 1.400 Min. :37.80 Min. : 0.00 Min. : 1049
## 1st Qu.: 4.350 1st Qu.:48.05 1st Qu.: 66.25 1st Qu.: 36985
## Median : 6.850 Median :53.25 Median :114.50 Median : 54277
## Mean : 7.378 Mean :53.11 Mean :104.46 Mean : 70736
## 3rd Qu.:10.675 3rd Qu.:59.15 3rd Qu.:139.75 3rd Qu.: 81163
## Max. :15.100 Max. :67.30 Max. :188.00 Max. :566432
Dataset state.x77 berisi data sosial ekonomi dari 50 negara bagian di Amerika Serikat dengan beberapa variabel sebagai berikut:
Rata-rata Population adalah 4246.42
Rata-rata Income adalah 4435.8
Rata-rata Life Expectancy adalah 70.8786
Rata-rata Murder Rate adalah 7.378
cor(data)
## Population Income Illiteracy LifeExp Murder
## Population 1.00000000 0.2082276 0.10762237 -0.06805195 0.3436428
## Income 0.20822756 1.0000000 -0.43707519 0.34025534 -0.2300776
## Illiteracy 0.10762237 -0.4370752 1.00000000 -0.58847793 0.7029752
## LifeExp -0.06805195 0.3402553 -0.58847793 1.00000000 -0.7808458
## Murder 0.34364275 -0.2300776 0.70297520 -0.78084575 1.0000000
## HSGrad -0.09848975 0.6199323 -0.65718861 0.58221620 -0.4879710
## Frost -0.33215245 0.2262822 -0.67194697 0.26206801 -0.5388834
## Area 0.02254384 0.3633154 0.07726113 -0.10733194 0.2283902
## HSGrad Frost Area
## Population -0.09848975 -0.3321525 0.02254384
## Income 0.61993232 0.2262822 0.36331544
## Illiteracy -0.65718861 -0.6719470 0.07726113
## LifeExp 0.58221620 0.2620680 -0.10733194
## Murder -0.48797102 -0.5388834 0.22839021
## HSGrad 1.00000000 0.3667797 0.33354187
## Frost 0.36677970 1.0000000 0.05922910
## Area 0.33354187 0.0592291 1.00000000
Scatter plot antar variabel
pairs(data)
Principal Component Analysis digunakan untuk mengurangi dimensi data dengan membentuk kombinasi linier dari variabel asli sehingga diperoleh beberapa komponen utama yang menjelaskan variasi data.
Bentuk umum komponen utama:
\[ PC_1 = a_1X_1 + a_2X_2 + ... + a_pX_p \]
\[ PC_2 = b_1X_1 + b_2X_2 + ... + b_pX_p \]
pca_model <- prcomp(data, scale = TRUE)
summary(pca_model)
## Importance of components:
## PC1 PC2 PC3 PC4 PC5 PC6 PC7
## Standard deviation 1.8971 1.2775 1.0545 0.84113 0.62019 0.55449 0.38006
## Proportion of Variance 0.4499 0.2040 0.1390 0.08844 0.04808 0.03843 0.01806
## Cumulative Proportion 0.4499 0.6539 0.7928 0.88128 0.92936 0.96780 0.98585
## PC8
## Standard deviation 0.33643
## Proportion of Variance 0.01415
## Cumulative Proportion 1.00000
Output di atas menunjukkan:
yang menjelaskan berapa besar variasi data yang dapat dijelaskan oleh masing-masing komponen utama.
pca_model$sdev^2
## [1] 3.5988956 1.6319192 1.1119412 0.7075042 0.3846417 0.3074617 0.1444488
## [8] 0.1131877
summary(pca_model)$importance
## PC1 PC2 PC3 PC4 PC5 PC6
## Standard deviation 1.897076 1.277466 1.054486 0.8411327 0.6201949 0.5544923
## Proportion of Variance 0.449860 0.203990 0.138990 0.0884400 0.0480800 0.0384300
## Cumulative Proportion 0.449860 0.653850 0.792840 0.8812800 0.9293600 0.9678000
## PC7 PC8
## Standard deviation 0.3800642 0.3364338
## Proportion of Variance 0.0180600 0.0141500
## Cumulative Proportion 0.9858500 1.0000000
pca_model$rotation
## PC1 PC2 PC3 PC4 PC5
## Population 0.12642809 0.41087417 -0.65632546 -0.40938555 -0.405946365
## Income -0.29882991 0.51897884 -0.10035919 -0.08844658 0.637586953
## Illiteracy 0.46766917 0.05296872 0.07089849 0.35282802 -0.003525994
## LifeExp -0.41161037 -0.08165611 -0.35993297 0.44256334 -0.326599685
## Murder 0.44425672 0.30694934 0.10846751 -0.16560017 0.128068739
## HSGrad -0.42468442 0.29876662 0.04970850 0.23157412 0.099264551
## Frost -0.35741244 -0.15358409 0.38711447 -0.61865119 -0.217363791
## Area -0.03338461 0.58762446 0.51038499 0.20112550 -0.498506338
## PC6 PC7 PC8
## Population 0.01065617 0.062158658 0.21924645
## Income -0.46177023 -0.009104712 -0.06029200
## Illiteracy -0.38741578 0.619800310 0.33868838
## LifeExp -0.21908161 0.256213054 -0.52743331
## Murder 0.32519611 0.295043151 -0.67825134
## HSGrad 0.64464647 0.393019181 0.30724183
## Frost -0.21268413 0.472013140 -0.02834442
## Area -0.14836054 -0.286260213 -0.01320320
Loading menunjukkan kontribusi masing-masing variabel terhadap komponen utama.
plot(pca_model, type="l")
Scree Plot PCA
plot(summary(pca_model)$importance[2,],
type="b",
xlab="Komponen Utama",
ylab="Proporsi Variansi",
main="Proporsi Variansi PCA")
Scree plot digunakan untuk melihat jumlah komponen utama yang optimal berdasarkan penurunan eigenvalue.
biplot(pca_model, scale=1, cex=1)
Biplot PCA
Biplot menampilkan hubungan antara observasi (negara bagian) dan variabel dalam ruang komponen utama.
Berdasarkan hasil PCA, komponen utama pertama (PC1) menjelaskan proporsi variansi terbesar dari data. Hal ini menunjukkan bahwa sebagian besar variasi indikator sosial ekonomi seperti pendapatan, tingkat pendidikan, dan harapan hidup dapat direpresentasikan oleh komponen utama pertama.
Komponen kedua (PC2) menjelaskan variasi tambahan yang tidak dijelaskan oleh PC1 dan dapat merepresentasikan karakteristik lain dari negara bagian seperti kondisi geografis atau faktor demografis.
Analisis Principal Component Analysis (PCA) pada dataset state.x77 menunjukkan bahwa beberapa komponen utama mampu menjelaskan sebagian besar variasi data indikator sosial ekonomi pada negara bagian di Amerika Serikat. Dengan menggunakan PCA, dimensi data dapat dikurangi tanpa kehilangan banyak informasi penting dari variabel asli.