NIM : 220605110070

KELAS : A

MATKUL : LINEAR ALGEBRA

DOSEN PENGAMPU : Prof.Dr.Suhartono,M.Kom

JURUSAN : TEKNIK INFORMATIKA

LEMBAGA : UNIVERSITAS ISLAM NEGERI MAULANA MALIK IBRAHIM MALANG

Pada bagian ini kami menerapkan PCA pada dataset ” dari paket ISLR di R [24]. Ini berisi jarak tempuh gas, tenaga kuda, dan informasi lainnya untuk 392 kendaraan. Dataset ini diambil dari perpustakaan StatLib yang dikelola di Carnegie Mellon University. Dataset ini digunakan dalam American Statistical Association Exposition 1983 [24]. American Statistical Association Exposition [24]. Pertama, kami memuat set data dari paket ISLR.

library(ISLR)
## Warning: package 'ISLR' was built under R version 4.2.2
data(Auto)
summary(Auto)
##       mpg          cylinders      displacement     horsepower        weight    
##  Min.   : 9.00   Min.   :3.000   Min.   : 68.0   Min.   : 46.0   Min.   :1613  
##  1st Qu.:17.00   1st Qu.:4.000   1st Qu.:105.0   1st Qu.: 75.0   1st Qu.:2225  
##  Median :22.75   Median :4.000   Median :151.0   Median : 93.5   Median :2804  
##  Mean   :23.45   Mean   :5.472   Mean   :194.4   Mean   :104.5   Mean   :2978  
##  3rd Qu.:29.00   3rd Qu.:8.000   3rd Qu.:275.8   3rd Qu.:126.0   3rd Qu.:3615  
##  Max.   :46.60   Max.   :8.000   Max.   :455.0   Max.   :230.0   Max.   :5140  
##                                                                                
##   acceleration        year           origin                      name    
##  Min.   : 8.00   Min.   :70.00   Min.   :1.000   amc matador       :  5  
##  1st Qu.:13.78   1st Qu.:73.00   1st Qu.:1.000   ford pinto        :  5  
##  Median :15.50   Median :76.00   Median :1.000   toyota corolla    :  5  
##  Mean   :15.54   Mean   :75.98   Mean   :1.577   amc gremlin       :  4  
##  3rd Qu.:17.02   3rd Qu.:79.00   3rd Qu.:2.000   amc hornet        :  4  
##  Max.   :24.80   Max.   :82.00   Max.   :3.000   chevrolet chevette:  4  
##                                                  (Other)           :365
auto <- Auto[,1:7]
summary(auto)
##       mpg          cylinders      displacement     horsepower        weight    
##  Min.   : 9.00   Min.   :3.000   Min.   : 68.0   Min.   : 46.0   Min.   :1613  
##  1st Qu.:17.00   1st Qu.:4.000   1st Qu.:105.0   1st Qu.: 75.0   1st Qu.:2225  
##  Median :22.75   Median :4.000   Median :151.0   Median : 93.5   Median :2804  
##  Mean   :23.45   Mean   :5.472   Mean   :194.4   Mean   :104.5   Mean   :2978  
##  3rd Qu.:29.00   3rd Qu.:8.000   3rd Qu.:275.8   3rd Qu.:126.0   3rd Qu.:3615  
##  Max.   :46.60   Max.   :8.000   Max.   :455.0   Max.   :230.0   Max.   :5140  
##   acceleration        year      
##  Min.   : 8.00   Min.   :70.00  
##  1st Qu.:13.78   1st Qu.:73.00  
##  Median :15.50   Median :76.00  
##  Mean   :15.54   Mean   :75.98  
##  3rd Qu.:17.02   3rd Qu.:79.00  
##  Max.   :24.80   Max.   :82.00

Kemudian, kita akan memilih 7 variabel pertama dan juga membuat variabel “asal”sebagai kelas karakter.

new.data <- Auto[, 1:8]
new.data$origin <- as.character(new.data$origin)
summary(new.data)
##       mpg          cylinders      displacement     horsepower        weight    
##  Min.   : 9.00   Min.   :3.000   Min.   : 68.0   Min.   : 46.0   Min.   :1613  
##  1st Qu.:17.00   1st Qu.:4.000   1st Qu.:105.0   1st Qu.: 75.0   1st Qu.:2225  
##  Median :22.75   Median :4.000   Median :151.0   Median : 93.5   Median :2804  
##  Mean   :23.45   Mean   :5.472   Mean   :194.4   Mean   :104.5   Mean   :2978  
##  3rd Qu.:29.00   3rd Qu.:8.000   3rd Qu.:275.8   3rd Qu.:126.0   3rd Qu.:3615  
##  Max.   :46.60   Max.   :8.000   Max.   :455.0   Max.   :230.0   Max.   :5140  
##   acceleration        year          origin         
##  Min.   : 8.00   Min.   :70.00   Length:392        
##  1st Qu.:13.78   1st Qu.:73.00   Class :character  
##  Median :15.50   Median :76.00   Mode  :character  
##  Mean   :15.54   Mean   :75.98                     
##  3rd Qu.:17.02   3rd Qu.:79.00                     
##  Max.   :24.80   Max.   :82.00

Dalam Aplikasi Praktis, kami akan menunjukkan cara memilih dimensi untuk memvisualisasikan kumpulan data ini dan bagaimana kita dapat memvisualisasikan data dalam ruang vektor.

Untuk mengurangi dimensi data “Auto” dari paket ISLR, kita akan menggunakan fungsi prcomp() untuk menerapkan PCA ke dataset. Untuk prcomp(), untuk menskalakan data kita tidak perlu menggunakan fungsi scale. Cukup tambahkan opsi”scale=TRUE”

pc <- prcomp(auto, scale=TRUE)
plot(pc)

Ini akan menampilkan plot, ada berbagai aturan aturan praktis untuk memilih jumlah komponen utama yang akan dipertahankan dalam sebuah analisis jenis ini

plot(cumsum(pc$sdev^2/sum(pc$sdev^2)))