Title: Vector Space

principal component analysis (PCA)

Nama Mahasiswa: Nabil Ulwan Muhammad Caesar

NIM: ‘220605110127’

Kelas: B

Matkul: Linear Algebra

Dosen Pengampu: Prof. Dr. Suhartono, M.Kom

Jurusan: Teknik Informatika

Lembaga: Universitas Islam Negeri Maulana Malik Ibrahim Malang

Ruang vektor adalah dasar dalam banyak bidang. Namun, ruang vektor tidak intuitif bagi banyak mahasiswa. Oleh karena itu, kita akan mendefinisikan ruang vektor dan subruang vektor dengan aplikasi dalam ilmu data. Pada Aplikasi Praktis, kita akan bekerja pada analisis komponen utama (PCA) yang dikembangkan oleh K. Pearson pada tahun 1901 [32]. PCA memproyeksikan titik-titik data dalam ruang vektor berdimensi tinggi ke dalam subruang vektor berdimensi lebih rendah.

Dalam bagian ini, kita akan menerapkan analisis komponen utama (PCA) pada dataset “Auto” yang ada dalam paket ISLR di R [24]. Dataset ini berisi informasi tentang konsumsi bahan bakar, tenaga kuda, dan informasi lainnya untuk 392 kendaraan.

Dataset ini diambil dari perpustakaan StatLib yang dikelola oleh Carnegie Mellon University. Dataset ini digunakan dalam Exposition American Statistical Association tahun 1983 [24].

Pertama, kita akan memuat dataset dari paket ISLR.

library(ISLR)
data(Auto)
summary(Auto)
##       mpg          cylinders      displacement     horsepower        weight    
##  Min.   : 9.00   Min.   :3.000   Min.   : 68.0   Min.   : 46.0   Min.   :1613  
##  1st Qu.:17.00   1st Qu.:4.000   1st Qu.:105.0   1st Qu.: 75.0   1st Qu.:2225  
##  Median :22.75   Median :4.000   Median :151.0   Median : 93.5   Median :2804  
##  Mean   :23.45   Mean   :5.472   Mean   :194.4   Mean   :104.5   Mean   :2978  
##  3rd Qu.:29.00   3rd Qu.:8.000   3rd Qu.:275.8   3rd Qu.:126.0   3rd Qu.:3615  
##  Max.   :46.60   Max.   :8.000   Max.   :455.0   Max.   :230.0   Max.   :5140  
##                                                                                
##   acceleration        year           origin                      name    
##  Min.   : 8.00   Min.   :70.00   Min.   :1.000   amc matador       :  5  
##  1st Qu.:13.78   1st Qu.:73.00   1st Qu.:1.000   ford pinto        :  5  
##  Median :15.50   Median :76.00   Median :1.000   toyota corolla    :  5  
##  Mean   :15.54   Mean   :75.98   Mean   :1.577   amc gremlin       :  4  
##  3rd Qu.:17.02   3rd Qu.:79.00   3rd Qu.:2.000   amc hornet        :  4  
##  Max.   :24.80   Max.   :82.00   Max.   :3.000   chevrolet chevette:  4  
##                                                  (Other)           :365

Selanjutnya, kita membuat subset dari dataset “Auto” yang hanya terdiri dari kolom 1 hingga 7. Subset ini disimpan dalam variabel “auto”. Selanjutnya, kita menggunakan fungsi summary() untuk melihat ringkasan statistik dari subset “auto”, yang mencakup statistik seperti nilai minimum, nilai maksimum, median, mean, dan quartil dari setiap variabel dalam subset.

auto <- Auto[,1:7]
summary(auto)
##       mpg          cylinders      displacement     horsepower        weight    
##  Min.   : 9.00   Min.   :3.000   Min.   : 68.0   Min.   : 46.0   Min.   :1613  
##  1st Qu.:17.00   1st Qu.:4.000   1st Qu.:105.0   1st Qu.: 75.0   1st Qu.:2225  
##  Median :22.75   Median :4.000   Median :151.0   Median : 93.5   Median :2804  
##  Mean   :23.45   Mean   :5.472   Mean   :194.4   Mean   :104.5   Mean   :2978  
##  3rd Qu.:29.00   3rd Qu.:8.000   3rd Qu.:275.8   3rd Qu.:126.0   3rd Qu.:3615  
##  Max.   :46.60   Max.   :8.000   Max.   :455.0   Max.   :230.0   Max.   :5140  
##   acceleration        year      
##  Min.   : 8.00   Min.   :70.00  
##  1st Qu.:13.78   1st Qu.:73.00  
##  Median :15.50   Median :76.00  
##  Mean   :15.54   Mean   :75.98  
##  3rd Qu.:17.02   3rd Qu.:79.00  
##  Max.   :24.80   Max.   :82.00

Lalu, kita membuat subset baru dari dataset “Auto” yang terdiri dari kolom 1 hingga 8. Subset ini disimpan dalam variabel “new.data”. Selanjutnya, kita mengubah tipe data kolom “origin” menjadi karakter (as.character) dalam subset “new.data”. Kemudian, kita menggunakan fungsi summary() untuk melihat ringkasan statistik dari subset “new.data”, yang mencakup statistik seperti nilai minimum, nilai maksimum, median, mean, dan quartil dari setiap variabel dalam subset.

new.data <- Auto[, 1:8]
new.data$origin <- as.character(new.data$origin)
summary(new.data)
##       mpg          cylinders      displacement     horsepower        weight    
##  Min.   : 9.00   Min.   :3.000   Min.   : 68.0   Min.   : 46.0   Min.   :1613  
##  1st Qu.:17.00   1st Qu.:4.000   1st Qu.:105.0   1st Qu.: 75.0   1st Qu.:2225  
##  Median :22.75   Median :4.000   Median :151.0   Median : 93.5   Median :2804  
##  Mean   :23.45   Mean   :5.472   Mean   :194.4   Mean   :104.5   Mean   :2978  
##  3rd Qu.:29.00   3rd Qu.:8.000   3rd Qu.:275.8   3rd Qu.:126.0   3rd Qu.:3615  
##  Max.   :46.60   Max.   :8.000   Max.   :455.0   Max.   :230.0   Max.   :5140  
##   acceleration        year          origin         
##  Min.   : 8.00   Min.   :70.00   Length:392        
##  1st Qu.:13.78   1st Qu.:73.00   Class :character  
##  Median :15.50   Median :76.00   Mode  :character  
##  Mean   :15.54   Mean   :75.98                     
##  3rd Qu.:17.02   3rd Qu.:79.00                     
##  Max.   :24.80   Max.   :82.00

Sumber Referensi: Ruriko Yoshida - Linear Algebra and its Application with R