PENDAHULUAN

Analisis multivariat adalah metode statistik yang digunakan untuk menganalisis hubungan kompleks antara beberapa variabel dalam satu dataset. Dalam analisis multivariat, kita mencoba untuk memahami bagaimana variabel-variabel ini berinteraksi satu sama lain dan bagaimana mereka mempengaruhi hasil keseluruhan. Salah satu teknik analisis multivariat yang berguna adalah Principal Component Analysis (PCA). adalah teknik statistik yang digunakan untuk mereduksi dimensi dari dataset multivariat. PCA membantu kita mengidentifikasi pola-pola utama dalam data dengan menggabungkan variabel-variabel yang berkorelasi kuat menjadi beberapa komponen utama yang lebih sedikit. Hal ini memungkinkan kita untuk mengurangi kompleksitas data sambil mempertahankan informasi yang penting. Dalam konteks ini, kami akan menggunakan dataset “mtcars” yang mencakup berbagai atribut kendaraan, seperti mesin, kecepatan maksimum, dan efisiensi bahan bakar. Dengan menggunakan PCA, kami akan mencoba memahami pola-pola utama dalam data ini dan mengidentifikasi komponen utama yang menjelaskan sebagian besar variasi dalam dataset. Tujuan dari analisis ini adalah untuk mengidentifikasi apakah kita dapat mereduksi dimensi variabel-variabel dalam dataset “mtcars” dan melihat apakah ada pola-pola utama yang dapat dijelaskan oleh komponen utama. Hasil dari analisis PCA ini dapat memberikan wawasan yang berharga tentang hubungan antara atribut kendaraan dan mungkin mengidentifikasi faktor-faktor kunci yang mempengaruhi kinerja kendaraan. Dengan demikian, dalam laporan ini, kita akan menggali lebih dalam tentang analisis multivariat, khususnya PCA, dan bagaimana teknik ini dapat diterapkan pada dataset “mtcars” untuk memahami struktur data yang lebih baik.


Analisis yang Digunakan

Dalam analisis ini, kita akan melakukan Principal Component Analysis (PCA) menggunakan dataset mtcars.


summary(cars)
##      speed           dist       
##  Min.   : 4.0   Min.   :  2.00  
##  1st Qu.:12.0   1st Qu.: 26.00  
##  Median :15.0   Median : 36.00  
##  Mean   :15.4   Mean   : 42.98  
##  3rd Qu.:19.0   3rd Qu.: 56.00  
##  Max.   :25.0   Max.   :120.00
# memuat dataset mtcars
data("mtcars")

# menampilkan baris pertama data
head(mtcars)
##                    mpg cyl disp  hp drat    wt  qsec vs am gear carb
## Mazda RX4         21.0   6  160 110 3.90 2.620 16.46  0  1    4    4
## Mazda RX4 Wag     21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
## Datsun 710        22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
## Hornet 4 Drive    21.4   6  258 110 3.08 3.215 19.44  1  0    3    1
## Hornet Sportabout 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
## Valiant           18.1   6  225 105 2.76 3.460 20.22  1  0    3    1
# memisahkan variabel independen
X <- mtcars[, 1:4]

# principal component analysis
pca_result <- prcomp(X, scale = TRUE)

# scale=TRUE untuk menstandarisasi

variabel yang digunakan

var 1: mpg var 2:cyl var 3:disp var 4:hp


## Importance of components:
##                           PC1     PC2     PC3     PC4
## Standard deviation     1.8714 0.48934 0.40652 0.30517
## Proportion of Variance 0.8755 0.05986 0.04132 0.02328
## Cumulative Proportion  0.8755 0.93540 0.97672 1.00000
##             PC1         PC2        PC3          PC4
## mpg  -0.4963126  0.41505710 -0.7624369 -0.009557844
## cyl   0.5126614 -0.08416586 -0.3698824 -0.770247652
## disp  0.5060829 -0.31928855 -0.5109886  0.617110666
## hp    0.4844917  0.84776090  0.1441097  0.160628854
## [1] 3.50215084 0.23945693 0.16526162 0.09313061
## Importance of first k=1 (out of 4) components:
##                           PC1
## Standard deviation     1.8714
## Proportion of Variance 0.8755
## Cumulative Proportion  0.8755

##             PC1
## mpg  -0.4963126
## cyl   0.5126614
## disp  0.5060829
## hp    0.4844917

Note that the echo = FALSE parameter was added to the code chunk to prevent printing of the R code that generated the plot.

  1. Pemahaman Variabilitas: PCA digunakan untuk memahami variasi yang ada dalam dataset. Hasil dari PCA menunjukkan bahwa komponen utama pertama (PC1) memiliki standar deviasi yang signifikan, yaitu sekitar 1.87. Ini menunjukkan bahwa PC1 menjelaskan sebagian besar variasi dalam data.

  2. Proportion of Variance: PCA juga memberikan informasi tentang proporsi variasi yang dijelaskan oleh masing-masing komponen utama. PC1 menjelaskan sekitar 87.55% dari variasi dalam data, sedangkan PC2 hanya menjelaskan sekitar 5.99% dari variasi.

  3. Kumulatif Proportion: Dengan menggunakan dua komponen utama (PC1 dan PC2), kita dapat menjelaskan sekitar 93.54% dari total variasi dalam dataset. Ini menunjukkan bahwa kita telah berhasil mereduksi dimensi data sambil mempertahankan sebagian besar informasi yang penting.

  4. Interpretasi Komponen Utama: Komponen utama pertama (PC1) memiliki beban tertinggi pada variabel “mpg,” yang merupakan efisiensi bahan bakar. Ini menunjukkan bahwa PC1 mungkin terkait dengan atribut kendaraan yang berkaitan dengan efisiensi bahan bakar. Komponen utama kedua (PC2) memiliki beban tertinggi pada variabel “hp,” yang mewakili daya mesin. PC2 mungkin terkait dengan atribut kendaraan yang berkaitan dengan daya mesin.

  5. Visualisasi: Screeplot juga digunakan untuk memvisualisasikan proporsi variasi yang dijelaskan oleh setiap komponen utama. Dalam kasus ini, plot menunjukkan bahwa dua komponen utama sudah cukup untuk menjelaskan sebagian besar variasi dalam data.

Kesimpulan dari analisis ini adalah bahwa kita dapat mereduksi dimensi dataset “mtcars” menggunakan dua komponen utama (PC1 dan PC2) tanpa kehilangan informasi yang signifikan. PC1 tampaknya terkait dengan atribut kendaraan yang berkaitan dengan efisiensi bahan bakar, sedangkan PC2 terkait dengan atribut kendaraan yang berkaitan dengan daya mesin. Analisis PCA membantu kita memahami struktur data yang lebih baik dan dapat digunakan untuk pengambilan keputusan lebih lanjut terkait dengan atribut kendaraan.