Ruang vektor merupakan dasar yang penting dalam berbagai bidang. Namun, konsep ruang vektor seringkali tidak intuitif bagi banyak siswa. Oleh karena itu, kami akan memberikan definisi tentang ruang vektor dan juga vektor subruang dengan penerapannya dalam ilmu data. Dalam aplikasi praktisnya, kami akan fokus pada analisis komponen utama (PCA) yang dikembangkan oleh K. Pearson pada tahun 1901. CA memproyeksikan titik data dalam ruang vektor berdimensi tinggi ke subruang vektor berdimensi lebih rendah.
kali ini, kita akan menerapkan analisis komponen utama (PCA) pada kumpulan data “Otomatis” yang berasal dari paket ISLR di R [24]. Kumpulan data ini berisi informasi tentang jarak tempuh bahan bakar, tenaga kuda, dan atribut lainnya untuk 392 kendaraan.
Kumpulan data ini diambil dari perpustakaan StatLib yang dioperasikan oleh Universitas Carnegie Mellon. Dataset ini digunakan dalam Pameran Asosiasi Statistik Amerika tahun 1983.
Langkah Pertama, kita harus memuat kumpulan data dari paket ISLR.
library(ISLR)
## Warning: package 'ISLR' was built under R version 4.2.3
data(Auto)
summary(Auto)
## mpg cylinders displacement horsepower weight
## Min. : 9.00 Min. :3.000 Min. : 68.0 Min. : 46.0 Min. :1613
## 1st Qu.:17.00 1st Qu.:4.000 1st Qu.:105.0 1st Qu.: 75.0 1st Qu.:2225
## Median :22.75 Median :4.000 Median :151.0 Median : 93.5 Median :2804
## Mean :23.45 Mean :5.472 Mean :194.4 Mean :104.5 Mean :2978
## 3rd Qu.:29.00 3rd Qu.:8.000 3rd Qu.:275.8 3rd Qu.:126.0 3rd Qu.:3615
## Max. :46.60 Max. :8.000 Max. :455.0 Max. :230.0 Max. :5140
##
## acceleration year origin name
## Min. : 8.00 Min. :70.00 Min. :1.000 amc matador : 5
## 1st Qu.:13.78 1st Qu.:73.00 1st Qu.:1.000 ford pinto : 5
## Median :15.50 Median :76.00 Median :1.000 toyota corolla : 5
## Mean :15.54 Mean :75.98 Mean :1.577 amc gremlin : 4
## 3rd Qu.:17.02 3rd Qu.:79.00 3rd Qu.:2.000 amc hornet : 4
## Max. :24.80 Max. :82.00 Max. :3.000 chevrolet chevette: 4
## (Other) :365
Fungsi summary() menunjukkan ringkasan dataset termasuk masing-masing rata-rata variabel, dll.
Sebelum memulai langkah-langkah berikutnya, langkah pertama yang akan kami lakukan adalah membersihkan dataset agar siap digunakan untuk menerapkan PCA dan visualisasi.
auto <- Auto[,1:7]
summary(auto)
## mpg cylinders displacement horsepower weight
## Min. : 9.00 Min. :3.000 Min. : 68.0 Min. : 46.0 Min. :1613
## 1st Qu.:17.00 1st Qu.:4.000 1st Qu.:105.0 1st Qu.: 75.0 1st Qu.:2225
## Median :22.75 Median :4.000 Median :151.0 Median : 93.5 Median :2804
## Mean :23.45 Mean :5.472 Mean :194.4 Mean :104.5 Mean :2978
## 3rd Qu.:29.00 3rd Qu.:8.000 3rd Qu.:275.8 3rd Qu.:126.0 3rd Qu.:3615
## Max. :46.60 Max. :8.000 Max. :455.0 Max. :230.0 Max. :5140
## acceleration year
## Min. : 8.00 Min. :70.00
## 1st Qu.:13.78 1st Qu.:73.00
## Median :15.50 Median :76.00
## Mean :15.54 Mean :75.98
## 3rd Qu.:17.02 3rd Qu.:79.00
## Max. :24.80 Max. :82.00
Kemudian, kita akan memilih 7 variabel pertama dan juga membuat variabel “asal”. sebagai kelas karakter.
new.data <- Auto[, 1:8]
new.data$origin <- as.character(new.data$origin)
summary(new.data)
## mpg cylinders displacement horsepower weight
## Min. : 9.00 Min. :3.000 Min. : 68.0 Min. : 46.0 Min. :1613
## 1st Qu.:17.00 1st Qu.:4.000 1st Qu.:105.0 1st Qu.: 75.0 1st Qu.:2225
## Median :22.75 Median :4.000 Median :151.0 Median : 93.5 Median :2804
## Mean :23.45 Mean :5.472 Mean :194.4 Mean :104.5 Mean :2978
## 3rd Qu.:29.00 3rd Qu.:8.000 3rd Qu.:275.8 3rd Qu.:126.0 3rd Qu.:3615
## Max. :46.60 Max. :8.000 Max. :455.0 Max. :230.0 Max. :5140
## acceleration year origin
## Min. : 8.00 Min. :70.00 Length:392
## 1st Qu.:13.78 1st Qu.:73.00 Class :character
## Median :15.50 Median :76.00 Mode :character
## Mean :15.54 Mean :75.98
## 3rd Qu.:17.02 3rd Qu.:79.00
## Max. :24.80 Max. :82.00