Analisis multivariat adalah metode statistik yang digunakan untuk menganalisis hubungan kompleks antara beberapa variabel dalam satu dataset. Dalam analisis multivariat, kita mencoba untuk memahami bagaimana variabel-variabel ini berinteraksi satu sama lain dan bagaimana mereka mempengaruhi hasil keseluruhan. Salah satu teknik analisis multivariat yang berguna adalah Principal Component Analysis (PCA). adalah teknik statistik yang digunakan untuk mereduksi dimensi dari dataset multivariat. PCA membantu kita mengidentifikasi pola-pola utama dalam data dengan menggabungkan variabel-variabel yang berkorelasi kuat menjadi beberapa komponen utama yang lebih sedikit. Hal ini memungkinkan kita untuk mengurangi kompleksitas data sambil mempertahankan informasi yang penting. Dalam konteks ini, kami akan menggunakan dataset “mtcars” yang mencakup berbagai atribut kendaraan, seperti mesin, kecepatan maksimum, dan efisiensi bahan bakar. Dengan menggunakan PCA, kami akan mencoba memahami pola-pola utama dalam data ini dan mengidentifikasi komponen utama yang menjelaskan sebagian besar variasi dalam dataset. Tujuan dari analisis ini adalah untuk mengidentifikasi apakah kita dapat mereduksi dimensi variabel-variabel dalam dataset “mtcars” dan melihat apakah ada pola-pola utama yang dapat dijelaskan oleh komponen utama. Hasil dari analisis PCA ini dapat memberikan wawasan yang berharga tentang hubungan antara atribut kendaraan dan mungkin mengidentifikasi faktor-faktor kunci yang mempengaruhi kinerja kendaraan. Dengan demikian, dalam laporan ini, kita akan menggali lebih dalam tentang analisis multivariat, khususnya PCA, dan bagaimana teknik ini dapat diterapkan pada dataset “mtcars” untuk memahami struktur data yang lebih baik.
Dalam analisis ini, kita akan melakukan Principal Component Analysis (PCA) menggunakan dataset mtcars.
summary(cars)
## speed dist
## Min. : 4.0 Min. : 2.00
## 1st Qu.:12.0 1st Qu.: 26.00
## Median :15.0 Median : 36.00
## Mean :15.4 Mean : 42.98
## 3rd Qu.:19.0 3rd Qu.: 56.00
## Max. :25.0 Max. :120.00
# memuat dataset mtcars
data("mtcars")
# menampilkan baris pertama data
head(mtcars)
## mpg cyl disp hp drat wt qsec vs am gear carb
## Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
## Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
## Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
## Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
## Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
## Valiant 18.1 6 225 105 2.76 3.460 20.22 1 0 3 1
# memisahkan variabel independen
X <- mtcars[, 1:4]
# principal component analysis
pca_result <- prcomp(X, scale = TRUE)
# scale=TRUE untuk menstandarisasi
var 1: mpg var 2:cyl var 3:disp var 4:hp
## Importance of components:
## PC1 PC2 PC3 PC4
## Standard deviation 1.8714 0.48934 0.40652 0.30517
## Proportion of Variance 0.8755 0.05986 0.04132 0.02328
## Cumulative Proportion 0.8755 0.93540 0.97672 1.00000
## PC1 PC2 PC3 PC4
## mpg -0.4963126 0.41505710 -0.7624369 -0.009557844
## cyl 0.5126614 -0.08416586 -0.3698824 -0.770247652
## disp 0.5060829 -0.31928855 -0.5109886 0.617110666
## hp 0.4844917 0.84776090 0.1441097 0.160628854
## [1] 3.50215084 0.23945693 0.16526162 0.09313061
## Importance of first k=1 (out of 4) components:
## PC1
## Standard deviation 1.8714
## Proportion of Variance 0.8755
## Cumulative Proportion 0.8755
## PC1
## mpg -0.4963126
## cyl 0.5126614
## disp 0.5060829
## hp 0.4844917
Note that the echo = FALSE parameter was added to the
code chunk to prevent printing of the R code that generated the
plot.
Pemahaman Variabilitas: PCA digunakan untuk memahami variasi yang ada dalam dataset. Hasil dari PCA menunjukkan bahwa komponen utama pertama (PC1) memiliki standar deviasi yang signifikan, yaitu sekitar 1.87. Ini menunjukkan bahwa PC1 menjelaskan sebagian besar variasi dalam data.
Proportion of Variance: PCA juga memberikan informasi tentang proporsi variasi yang dijelaskan oleh masing-masing komponen utama. PC1 menjelaskan sekitar 87.55% dari variasi dalam data, sedangkan PC2 hanya menjelaskan sekitar 5.99% dari variasi.
Kumulatif Proportion: Dengan menggunakan dua komponen utama (PC1 dan PC2), kita dapat menjelaskan sekitar 93.54% dari total variasi dalam dataset. Ini menunjukkan bahwa kita telah berhasil mereduksi dimensi data sambil mempertahankan sebagian besar informasi yang penting.
Interpretasi Komponen Utama: Komponen utama pertama (PC1) memiliki beban tertinggi pada variabel “mpg,” yang merupakan efisiensi bahan bakar. Ini menunjukkan bahwa PC1 mungkin terkait dengan atribut kendaraan yang berkaitan dengan efisiensi bahan bakar. Komponen utama kedua (PC2) memiliki beban tertinggi pada variabel “hp,” yang mewakili daya mesin. PC2 mungkin terkait dengan atribut kendaraan yang berkaitan dengan daya mesin.
Visualisasi: Screeplot juga digunakan untuk memvisualisasikan proporsi variasi yang dijelaskan oleh setiap komponen utama. Dalam kasus ini, plot menunjukkan bahwa dua komponen utama sudah cukup untuk menjelaskan sebagian besar variasi dalam data.
Kesimpulan dari analisis ini adalah bahwa kita dapat mereduksi dimensi dataset “mtcars” menggunakan dua komponen utama (PC1 dan PC2) tanpa kehilangan informasi yang signifikan. PC1 tampaknya terkait dengan atribut kendaraan yang berkaitan dengan efisiensi bahan bakar, sedangkan PC2 terkait dengan atribut kendaraan yang berkaitan dengan daya mesin. Analisis PCA membantu kita memahami struktur data yang lebih baik dan dapat digunakan untuk pengambilan keputusan lebih lanjut terkait dengan atribut kendaraan.