Deskripsi Data

data <- as.data.frame(state.x77)
colnames(data) <- c("Population","Income","Illiteracy","LifeExp","Murder","HSGrad","Frost","Area")
summary(data)
##    Population        Income       Illiteracy       LifeExp     
##  Min.   :  365   Min.   :3098   Min.   :0.500   Min.   :67.96  
##  1st Qu.: 1080   1st Qu.:3993   1st Qu.:0.625   1st Qu.:70.12  
##  Median : 2838   Median :4519   Median :0.950   Median :70.67  
##  Mean   : 4246   Mean   :4436   Mean   :1.170   Mean   :70.88  
##  3rd Qu.: 4968   3rd Qu.:4814   3rd Qu.:1.575   3rd Qu.:71.89  
##  Max.   :21198   Max.   :6315   Max.   :2.800   Max.   :73.60  
##      Murder           HSGrad          Frost             Area       
##  Min.   : 1.400   Min.   :37.80   Min.   :  0.00   Min.   :  1049  
##  1st Qu.: 4.350   1st Qu.:48.05   1st Qu.: 66.25   1st Qu.: 36985  
##  Median : 6.850   Median :53.25   Median :114.50   Median : 54277  
##  Mean   : 7.378   Mean   :53.11   Mean   :104.46   Mean   : 70736  
##  3rd Qu.:10.675   3rd Qu.:59.15   3rd Qu.:139.75   3rd Qu.: 81163  
##  Max.   :15.100   Max.   :67.30   Max.   :188.00   Max.   :566432

Dataset state.x77 berisi data sosial ekonomi dari 50 negara bagian di Amerika Serikat dengan beberapa variabel sebagai berikut:

Rata-rata Population adalah 4246.42

Rata-rata Income adalah 4435.8

Rata-rata Life Expectancy adalah 70.8786

Rata-rata Murder Rate adalah 7.378

Eksplorasi Data

cor(data)
##             Population     Income  Illiteracy     LifeExp     Murder
## Population  1.00000000  0.2082276  0.10762237 -0.06805195  0.3436428
## Income      0.20822756  1.0000000 -0.43707519  0.34025534 -0.2300776
## Illiteracy  0.10762237 -0.4370752  1.00000000 -0.58847793  0.7029752
## LifeExp    -0.06805195  0.3402553 -0.58847793  1.00000000 -0.7808458
## Murder      0.34364275 -0.2300776  0.70297520 -0.78084575  1.0000000
## HSGrad     -0.09848975  0.6199323 -0.65718861  0.58221620 -0.4879710
## Frost      -0.33215245  0.2262822 -0.67194697  0.26206801 -0.5388834
## Area        0.02254384  0.3633154  0.07726113 -0.10733194  0.2283902
##                 HSGrad      Frost        Area
## Population -0.09848975 -0.3321525  0.02254384
## Income      0.61993232  0.2262822  0.36331544
## Illiteracy -0.65718861 -0.6719470  0.07726113
## LifeExp     0.58221620  0.2620680 -0.10733194
## Murder     -0.48797102 -0.5388834  0.22839021
## HSGrad      1.00000000  0.3667797  0.33354187
## Frost       0.36677970  1.0000000  0.05922910
## Area        0.33354187  0.0592291  1.00000000

Scatter plot antar variabel

pairs(data)

Analisis Principal Component Analysis (PCA)

Principal Component Analysis digunakan untuk mengurangi dimensi data dengan membentuk kombinasi linier dari variabel asli sehingga diperoleh beberapa komponen utama yang menjelaskan variasi data.

Bentuk umum komponen utama:

\[ PC_1 = a_1X_1 + a_2X_2 + ... + a_pX_p \]

\[ PC_2 = b_1X_1 + b_2X_2 + ... + b_pX_p \]

Estimasi PCA

pca_model <- prcomp(data, scale = TRUE)
summary(pca_model)
## Importance of components:
##                           PC1    PC2    PC3     PC4     PC5     PC6     PC7
## Standard deviation     1.8971 1.2775 1.0545 0.84113 0.62019 0.55449 0.38006
## Proportion of Variance 0.4499 0.2040 0.1390 0.08844 0.04808 0.03843 0.01806
## Cumulative Proportion  0.4499 0.6539 0.7928 0.88128 0.92936 0.96780 0.98585
##                            PC8
## Standard deviation     0.33643
## Proportion of Variance 0.01415
## Cumulative Proportion  1.00000

Output di atas menunjukkan:

  • Standard deviation
  • Proporsi variansi
  • Cumulative proportion

yang menjelaskan berapa besar variasi data yang dapat dijelaskan oleh masing-masing komponen utama.

Eigenvalue

pca_model$sdev^2
## [1] 3.5988956 1.6319192 1.1119412 0.7075042 0.3846417 0.3074617 0.1444488
## [8] 0.1131877

Proporsi Variansi

summary(pca_model)$importance
##                             PC1      PC2      PC3       PC4       PC5       PC6
## Standard deviation     1.897076 1.277466 1.054486 0.8411327 0.6201949 0.5544923
## Proportion of Variance 0.449860 0.203990 0.138990 0.0884400 0.0480800 0.0384300
## Cumulative Proportion  0.449860 0.653850 0.792840 0.8812800 0.9293600 0.9678000
##                              PC7       PC8
## Standard deviation     0.3800642 0.3364338
## Proportion of Variance 0.0180600 0.0141500
## Cumulative Proportion  0.9858500 1.0000000

Loading Komponen Utama

pca_model$rotation
##                    PC1         PC2         PC3         PC4          PC5
## Population  0.12642809  0.41087417 -0.65632546 -0.40938555 -0.405946365
## Income     -0.29882991  0.51897884 -0.10035919 -0.08844658  0.637586953
## Illiteracy  0.46766917  0.05296872  0.07089849  0.35282802 -0.003525994
## LifeExp    -0.41161037 -0.08165611 -0.35993297  0.44256334 -0.326599685
## Murder      0.44425672  0.30694934  0.10846751 -0.16560017  0.128068739
## HSGrad     -0.42468442  0.29876662  0.04970850  0.23157412  0.099264551
## Frost      -0.35741244 -0.15358409  0.38711447 -0.61865119 -0.217363791
## Area       -0.03338461  0.58762446  0.51038499  0.20112550 -0.498506338
##                    PC6          PC7         PC8
## Population  0.01065617  0.062158658  0.21924645
## Income     -0.46177023 -0.009104712 -0.06029200
## Illiteracy -0.38741578  0.619800310  0.33868838
## LifeExp    -0.21908161  0.256213054 -0.52743331
## Murder      0.32519611  0.295043151 -0.67825134
## HSGrad      0.64464647  0.393019181  0.30724183
## Frost      -0.21268413  0.472013140 -0.02834442
## Area       -0.14836054 -0.286260213 -0.01320320

Loading menunjukkan kontribusi masing-masing variabel terhadap komponen utama.

Visualisasi PCA

Scree Plot

plot(pca_model, type="l")
Scree Plot PCA

Scree Plot PCA

Proporsi Variansi

plot(summary(pca_model)$importance[2,],
     type="b",
     xlab="Komponen Utama",
     ylab="Proporsi Variansi",
     main="Proporsi Variansi PCA")

Scree plot digunakan untuk melihat jumlah komponen utama yang optimal berdasarkan penurunan eigenvalue.

Biplot PCA

biplot(pca_model, scale=1, cex=1)
Biplot PCA

Biplot PCA

Biplot menampilkan hubungan antara observasi (negara bagian) dan variabel dalam ruang komponen utama.

Interpretasi

Berdasarkan hasil PCA, komponen utama pertama (PC1) menjelaskan proporsi variansi terbesar dari data. Hal ini menunjukkan bahwa sebagian besar variasi indikator sosial ekonomi seperti pendapatan, tingkat pendidikan, dan harapan hidup dapat direpresentasikan oleh komponen utama pertama.

Komponen kedua (PC2) menjelaskan variasi tambahan yang tidak dijelaskan oleh PC1 dan dapat merepresentasikan karakteristik lain dari negara bagian seperti kondisi geografis atau faktor demografis.

Kesimpulan

Analisis Principal Component Analysis (PCA) pada dataset state.x77 menunjukkan bahwa beberapa komponen utama mampu menjelaskan sebagian besar variasi data indikator sosial ekonomi pada negara bagian di Amerika Serikat. Dengan menggunakan PCA, dimensi data dapat dikurangi tanpa kehilangan banyak informasi penting dari variabel asli.