Ruang vektor merupakan dasar yang penting dalam berbagai bidang. Namun, konsep ruang vektor seringkali tidak intuitif bagi banyak siswa. Oleh karena itu, kami akan memberikan definisi tentang ruang vektor dan juga vektor subruang dengan penerapannya dalam ilmu data. Dalam aplikasi praktisnya, kami akan fokus pada analisis komponen utama (PCA) yang dikembangkan oleh K. Pearson pada tahun 1901. CA memproyeksikan titik data dalam ruang vektor berdimensi tinggi ke subruang vektor berdimensi lebih rendah.

kali ini, kita akan menerapkan analisis komponen utama (PCA) pada kumpulan data “Otomatis” yang berasal dari paket ISLR di R [24]. Kumpulan data ini berisi informasi tentang jarak tempuh bahan bakar, tenaga kuda, dan atribut lainnya untuk 392 kendaraan.

Kumpulan data ini diambil dari perpustakaan StatLib yang dioperasikan oleh Universitas Carnegie Mellon. Dataset ini digunakan dalam Pameran Asosiasi Statistik Amerika tahun 1983.

Langkah Pertama, kita harus memuat kumpulan data dari paket ISLR.

library(ISLR)
## Warning: package 'ISLR' was built under R version 4.2.3
data(Auto)
summary(Auto)
##       mpg          cylinders      displacement     horsepower        weight    
##  Min.   : 9.00   Min.   :3.000   Min.   : 68.0   Min.   : 46.0   Min.   :1613  
##  1st Qu.:17.00   1st Qu.:4.000   1st Qu.:105.0   1st Qu.: 75.0   1st Qu.:2225  
##  Median :22.75   Median :4.000   Median :151.0   Median : 93.5   Median :2804  
##  Mean   :23.45   Mean   :5.472   Mean   :194.4   Mean   :104.5   Mean   :2978  
##  3rd Qu.:29.00   3rd Qu.:8.000   3rd Qu.:275.8   3rd Qu.:126.0   3rd Qu.:3615  
##  Max.   :46.60   Max.   :8.000   Max.   :455.0   Max.   :230.0   Max.   :5140  
##                                                                                
##   acceleration        year           origin                      name    
##  Min.   : 8.00   Min.   :70.00   Min.   :1.000   amc matador       :  5  
##  1st Qu.:13.78   1st Qu.:73.00   1st Qu.:1.000   ford pinto        :  5  
##  Median :15.50   Median :76.00   Median :1.000   toyota corolla    :  5  
##  Mean   :15.54   Mean   :75.98   Mean   :1.577   amc gremlin       :  4  
##  3rd Qu.:17.02   3rd Qu.:79.00   3rd Qu.:2.000   amc hornet        :  4  
##  Max.   :24.80   Max.   :82.00   Max.   :3.000   chevrolet chevette:  4  
##                                                  (Other)           :365

Fungsi summary() menunjukkan ringkasan dataset termasuk masing-masing rata-rata variabel, dll.

Sebelum memulai langkah-langkah berikutnya, langkah pertama yang akan kami lakukan adalah membersihkan dataset agar siap digunakan untuk menerapkan PCA dan visualisasi.

auto <- Auto[,1:7]
summary(auto)
##       mpg          cylinders      displacement     horsepower        weight    
##  Min.   : 9.00   Min.   :3.000   Min.   : 68.0   Min.   : 46.0   Min.   :1613  
##  1st Qu.:17.00   1st Qu.:4.000   1st Qu.:105.0   1st Qu.: 75.0   1st Qu.:2225  
##  Median :22.75   Median :4.000   Median :151.0   Median : 93.5   Median :2804  
##  Mean   :23.45   Mean   :5.472   Mean   :194.4   Mean   :104.5   Mean   :2978  
##  3rd Qu.:29.00   3rd Qu.:8.000   3rd Qu.:275.8   3rd Qu.:126.0   3rd Qu.:3615  
##  Max.   :46.60   Max.   :8.000   Max.   :455.0   Max.   :230.0   Max.   :5140  
##   acceleration        year      
##  Min.   : 8.00   Min.   :70.00  
##  1st Qu.:13.78   1st Qu.:73.00  
##  Median :15.50   Median :76.00  
##  Mean   :15.54   Mean   :75.98  
##  3rd Qu.:17.02   3rd Qu.:79.00  
##  Max.   :24.80   Max.   :82.00

Kemudian, kita akan memilih 7 variabel pertama dan juga membuat variabel “asal”. sebagai kelas karakter.

new.data <- Auto[, 1:8]
new.data$origin <- as.character(new.data$origin)
summary(new.data)
##       mpg          cylinders      displacement     horsepower        weight    
##  Min.   : 9.00   Min.   :3.000   Min.   : 68.0   Min.   : 46.0   Min.   :1613  
##  1st Qu.:17.00   1st Qu.:4.000   1st Qu.:105.0   1st Qu.: 75.0   1st Qu.:2225  
##  Median :22.75   Median :4.000   Median :151.0   Median : 93.5   Median :2804  
##  Mean   :23.45   Mean   :5.472   Mean   :194.4   Mean   :104.5   Mean   :2978  
##  3rd Qu.:29.00   3rd Qu.:8.000   3rd Qu.:275.8   3rd Qu.:126.0   3rd Qu.:3615  
##  Max.   :46.60   Max.   :8.000   Max.   :455.0   Max.   :230.0   Max.   :5140  
##   acceleration        year          origin         
##  Min.   : 8.00   Min.   :70.00   Length:392        
##  1st Qu.:13.78   1st Qu.:73.00   Class :character  
##  Median :15.50   Median :76.00   Mode  :character  
##  Mean   :15.54   Mean   :75.98                     
##  3rd Qu.:17.02   3rd Qu.:79.00                     
##  Max.   :24.80   Max.   :82.00