Analisis multivariat merupakan metode statistik yang digunakan untuk menganalisis data dengan lebih dari satu variabel secara simultan. Pada laporan ini dilakukan analisis multivariat menggunakan Dataset Raisin dengan bantuan perangkat lunak RStudio. Analisis ini bertujuan untuk mengetahui hubungan antar variabel serta karakteristik utama data melalui matriks korelasi, matriks varians–kovarians, dan analisis eigen.
Tujuan dari analisis ini adalah untuk: 1. Mengimpor dataset Raisin ke dalam R. 2. Menghitung matriks korelasi dan matriks varians-kovarians. 3. Menentukan nilai eigen dan vektor eigen. 4. Menginterpretasikan hasil analisis multivariat secara singkat dan jelas.
library(readxl)
Baris ini digunakan untuk memanggil package readxl, yang berfungsi membaca file Excel (.xlsx) ke dalam lingkungan R.
Raisin_Dataset <- read_excel("C:/Users/HP/OneDrive/Desktop/raisin/Raisin_Dataset/Raisin_Dataset/Raisin_Dataset.xlsx")
head(Raisin_Dataset)
## # A tibble: 6 × 8
## Area MajorAxisLength MinorAxisLength Eccentricity ConvexArea Extent Perimeter
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 87524 442. 253. 0.820 90546 0.759 1184.
## 2 75166 407. 243. 0.802 78789 0.684 1122.
## 3 90856 442. 266. 0.798 93717 0.638 1209.
## 4 45928 287. 209. 0.685 47336 0.700 844.
## 5 79408 352. 291. 0.564 81463 0.793 1073.
## 6 49242 318. 200. 0.777 51368 0.658 882.
## # ℹ 1 more variable: Class <chr>
Perintah read_excel() digunakan untuk mengimpor dataset Raisin ke dalam R dan menyimpannya dalam objek Raisin_Dataset. Fungsi head() menampilkan enam baris pertama dataset untuk memastikan data berhasil dimuat dengan benar.
data_num <- Raisin_Dataset[, -8]
Kode ini digunakan untuk mengambil seluruh kolom kecuali kolom ke-8 (Class), karena kolom tersebut bertipe kategorik dan tidak dapat digunakan dalam perhitungan korelasi. Hasilnya adalah dataset numerik murni.
cor_matrix <- cor(data_num)
cor_matrix
## Area MajorAxisLength MinorAxisLength Eccentricity
## Area 1.00000000 0.9327744 0.9066499 0.3361066
## MajorAxisLength 0.93277443 1.0000000 0.7280302 0.5836084
## MinorAxisLength 0.90664987 0.7280302 1.0000000 -0.0276835
## Eccentricity 0.33610660 0.5836084 -0.0276835 1.0000000
## ConvexArea 0.99591967 0.9450309 0.8956513 0.3482103
## Extent -0.01349934 -0.2038656 0.1453215 -0.3610615
## Perimeter 0.96135172 0.9779780 0.8274170 0.4478452
## ConvexArea Extent Perimeter
## Area 0.99591967 -0.01349934 0.9613517
## MajorAxisLength 0.94503093 -0.20386556 0.9779780
## MinorAxisLength 0.89565132 0.14532153 0.8274170
## Eccentricity 0.34821030 -0.36106149 0.4478452
## ConvexArea 1.00000000 -0.05480247 0.9766122
## Extent -0.05480247 1.00000000 -0.1734489
## Perimeter 0.97661223 -0.17344893 1.0000000
Fungsi cor() digunakan untuk menghitung koefisien korelasi Pearson antar seluruh variabel numerik dalam dataset. Output berupa matriks korelasi dengan nilai antara -1 hingga 1, di mana:
Nilai mendekati 1 menunjukkan hubungan positif sangat kuat, Nilai mendekati -1 menunjukkan hubungan negatif sangat kuat, Nilai mendekati 0 menunjukkan hubungan lemah atau tidak ada hubungan.
cov_matrix <- cov(data_num)
cov_matrix
## Area MajorAxisLength MinorAxisLength Eccentricity
## Area 1.521165e+09 4.221378e+06 1.767671e+06 1.183972e+03
## MajorAxisLength 4.221378e+06 1.346415e+04 4.222916e+03 6.116279e+00
## MinorAxisLength 1.767671e+06 4.222916e+03 2.498890e+03 -1.249887e-01
## Eccentricity 1.183972e+03 6.116279e+00 -1.249887e-01 8.157415e-03
## ConvexArea 1.583600e+09 4.470629e+06 1.825348e+06 1.282186e+03
## Extent -2.815116e+01 -1.264820e+00 3.884178e-01 -1.743625e-03
## Perimeter 1.026472e+07 3.106672e+04 1.132335e+04 1.107340e+01
## ConvexArea Extent Perimeter
## Area 1.583600e+09 -2.815116e+01 1.026472e+07
## MajorAxisLength 4.470629e+06 -1.264820e+00 3.106672e+04
## MinorAxisLength 1.825348e+06 3.884178e-01 1.132335e+04
## Eccentricity 1.282186e+03 -1.743625e-03 1.107340e+01
## ConvexArea 1.662135e+09 -1.194617e+02 1.090014e+07
## Extent -1.194617e+02 2.858848e-03 -2.538891e+00
## Perimeter 1.090014e+07 -2.538891e+00 7.494690e+04
Fungsi cov() digunakan untuk menghitung matriks kovarians antar seluruh variabel numerik dalam dataset. Matriks ini menunjukkan bagaimana dua variabel berubah secara bersamaan:
Nilai positif besar → kedua variabel meningkat bersama, Nilai negatif → satu variabel meningkat sementara yang lain menurun, Nilai mendekati 0 → hubungan linier lemah.
Diagonal utama matriks menunjukkan varians masing-masing variabel.
eigen_result <- eigen(cov_matrix)
Perintah ini melakukan dekomposisi eigen terhadap matriks kovarians, yang merupakan tahap utama dalam Principal Component Analysis (PCA).
eigen_result$values
## [1] 3.176903e+09 6.484070e+06 3.411647e+03 5.871721e+02 4.592383e+01
## [6] 1.781033e-03 1.565458e-03
Eigen value menunjukkan besar varians yang dijelaskan oleh masing-masing komponen utama. Dari output terlihat bahwa eigenvalue pertama jauh lebih besar dibandingkan yang lain, yang berarti komponen utama pertama (PC1) menjelaskan sebagian besar variasi data.
eigen_result$vectors
## [,1] [,2] [,3] [,4] [,5]
## [1,] -6.911978e-01 7.225900e-01 0.0099167946 2.336904e-03 -0.002339507
## [2,] -1.935429e-03 -6.101735e-03 0.5800095074 -5.162209e-01 0.630129625
## [3,] -7.998219e-04 2.427483e-03 -0.2137523625 6.499835e-01 0.729259089
## [4,] -5.492743e-07 -4.737215e-06 0.0010540138 -1.661067e-03 -0.001299584
## [5,] -7.226472e-01 -6.910123e-01 -0.0159270484 -5.209011e-03 0.001481976
## [6,] 3.330314e-08 9.602308e-06 -0.0003483057 7.835626e-05 0.001134514
## [7,] -4.712872e-03 -1.795989e-02 0.7858407300 5.576756e-01 -0.266659316
## [,6] [,7]
## [1,] 1.174284e-06 6.537297e-06
## [2,] 4.904183e-04 6.364268e-04
## [3,] 8.891598e-04 -2.278570e-03
## [4,] -2.806809e-02 -9.996032e-01
## [5,] -1.815070e-08 -6.392384e-06
## [6,] -9.996054e-01 2.806617e-02
## [7,] -5.255305e-04 2.634392e-04
Eigenvector menunjukkan arah komponen utama, yaitu bobot kontribusi masing-masing variabel asli terhadap setiap komponen utama. Setiap kolom merepresentasikan satu komponen utama, sedangkan setiap baris menunjukkan kontribusi variabel terhadap komponen tersebut.
Berdasarkan hasil analisis korelasi, menunjukkan bahwa sebagian besar variabel ukuran buah seperti Area, ConvexArea, MajorAxisLength, dan Perimeter memiliki hubungan yang sangat kuat, sehingga terdapat multikolinearitas dalam dataset. Matriks kovarians menegaskan bahwa variasi terbesar berasal dari fitur ukuran fisik buah, sedangkan fitur bentuk seperti Extent dan Eccentricity memiliki kontribusi variasi yang lebih kecil. Hasil dekomposisi eigen memperlihatkan bahwa komponen utama pertama mampu menjelaskan sebagian besar variasi data, sementara komponen lainnya memberikan kontribusi minimal. Oleh karena itu, dataset ini sangat cocok untuk dilakukan reduksi dimensi menggunakan PCA sebelum tahap pemodelan, agar model menjadi lebih efisien tanpa kehilangan informasi penting.