| principal component analysis (PCA) |
Nama Mahasiswa: Nabil Ulwan Muhammad Caesar
NIM: ‘220605110127’
Kelas: B
Matkul: Linear Algebra
Dosen Pengampu: Prof. Dr. Suhartono, M.Kom
Jurusan: Teknik Informatika
Lembaga: Universitas Islam Negeri Maulana Malik Ibrahim Malang
Ruang vektor adalah dasar dalam banyak bidang. Namun, ruang vektor tidak intuitif bagi banyak mahasiswa. Oleh karena itu, kita akan mendefinisikan ruang vektor dan subruang vektor dengan aplikasi dalam ilmu data. Pada Aplikasi Praktis, kita akan bekerja pada analisis komponen utama (PCA) yang dikembangkan oleh K. Pearson pada tahun 1901 [32]. PCA memproyeksikan titik-titik data dalam ruang vektor berdimensi tinggi ke dalam subruang vektor berdimensi lebih rendah.
Dalam bagian ini, kita akan menerapkan analisis komponen utama (PCA) pada dataset “Auto” yang ada dalam paket ISLR di R [24]. Dataset ini berisi informasi tentang konsumsi bahan bakar, tenaga kuda, dan informasi lainnya untuk 392 kendaraan.
Dataset ini diambil dari perpustakaan StatLib yang dikelola oleh Carnegie Mellon University. Dataset ini digunakan dalam Exposition American Statistical Association tahun 1983 [24].
Pertama, kita akan memuat dataset dari paket ISLR.
library(ISLR)
data(Auto)
summary(Auto)
## mpg cylinders displacement horsepower weight
## Min. : 9.00 Min. :3.000 Min. : 68.0 Min. : 46.0 Min. :1613
## 1st Qu.:17.00 1st Qu.:4.000 1st Qu.:105.0 1st Qu.: 75.0 1st Qu.:2225
## Median :22.75 Median :4.000 Median :151.0 Median : 93.5 Median :2804
## Mean :23.45 Mean :5.472 Mean :194.4 Mean :104.5 Mean :2978
## 3rd Qu.:29.00 3rd Qu.:8.000 3rd Qu.:275.8 3rd Qu.:126.0 3rd Qu.:3615
## Max. :46.60 Max. :8.000 Max. :455.0 Max. :230.0 Max. :5140
##
## acceleration year origin name
## Min. : 8.00 Min. :70.00 Min. :1.000 amc matador : 5
## 1st Qu.:13.78 1st Qu.:73.00 1st Qu.:1.000 ford pinto : 5
## Median :15.50 Median :76.00 Median :1.000 toyota corolla : 5
## Mean :15.54 Mean :75.98 Mean :1.577 amc gremlin : 4
## 3rd Qu.:17.02 3rd Qu.:79.00 3rd Qu.:2.000 amc hornet : 4
## Max. :24.80 Max. :82.00 Max. :3.000 chevrolet chevette: 4
## (Other) :365
Selanjutnya, kita membuat subset dari dataset “Auto” yang hanya terdiri dari kolom 1 hingga 7. Subset ini disimpan dalam variabel “auto”. Selanjutnya, kita menggunakan fungsi summary() untuk melihat ringkasan statistik dari subset “auto”, yang mencakup statistik seperti nilai minimum, nilai maksimum, median, mean, dan quartil dari setiap variabel dalam subset.
auto <- Auto[,1:7]
summary(auto)
## mpg cylinders displacement horsepower weight
## Min. : 9.00 Min. :3.000 Min. : 68.0 Min. : 46.0 Min. :1613
## 1st Qu.:17.00 1st Qu.:4.000 1st Qu.:105.0 1st Qu.: 75.0 1st Qu.:2225
## Median :22.75 Median :4.000 Median :151.0 Median : 93.5 Median :2804
## Mean :23.45 Mean :5.472 Mean :194.4 Mean :104.5 Mean :2978
## 3rd Qu.:29.00 3rd Qu.:8.000 3rd Qu.:275.8 3rd Qu.:126.0 3rd Qu.:3615
## Max. :46.60 Max. :8.000 Max. :455.0 Max. :230.0 Max. :5140
## acceleration year
## Min. : 8.00 Min. :70.00
## 1st Qu.:13.78 1st Qu.:73.00
## Median :15.50 Median :76.00
## Mean :15.54 Mean :75.98
## 3rd Qu.:17.02 3rd Qu.:79.00
## Max. :24.80 Max. :82.00
Lalu, kita membuat subset baru dari dataset “Auto” yang terdiri dari kolom 1 hingga 8. Subset ini disimpan dalam variabel “new.data”. Selanjutnya, kita mengubah tipe data kolom “origin” menjadi karakter (as.character) dalam subset “new.data”. Kemudian, kita menggunakan fungsi summary() untuk melihat ringkasan statistik dari subset “new.data”, yang mencakup statistik seperti nilai minimum, nilai maksimum, median, mean, dan quartil dari setiap variabel dalam subset.
new.data <- Auto[, 1:8]
new.data$origin <- as.character(new.data$origin)
summary(new.data)
## mpg cylinders displacement horsepower weight
## Min. : 9.00 Min. :3.000 Min. : 68.0 Min. : 46.0 Min. :1613
## 1st Qu.:17.00 1st Qu.:4.000 1st Qu.:105.0 1st Qu.: 75.0 1st Qu.:2225
## Median :22.75 Median :4.000 Median :151.0 Median : 93.5 Median :2804
## Mean :23.45 Mean :5.472 Mean :194.4 Mean :104.5 Mean :2978
## 3rd Qu.:29.00 3rd Qu.:8.000 3rd Qu.:275.8 3rd Qu.:126.0 3rd Qu.:3615
## Max. :46.60 Max. :8.000 Max. :455.0 Max. :230.0 Max. :5140
## acceleration year origin
## Min. : 8.00 Min. :70.00 Length:392
## 1st Qu.:13.78 1st Qu.:73.00 Class :character
## Median :15.50 Median :76.00 Mode :character
## Mean :15.54 Mean :75.98
## 3rd Qu.:17.02 3rd Qu.:79.00
## Max. :24.80 Max. :82.00
Sumber Referensi: Ruriko Yoshida - Linear Algebra and its Application with R