PENDAHULUAN

Analisis multivariat merupakan metode statistik yang digunakan untuk menganalisis data dengan lebih dari satu variabel secara simultan. Pada laporan ini dilakukan analisis multivariat menggunakan Dataset Raisin dengan bantuan perangkat lunak RStudio. Analisis ini bertujuan untuk mengetahui hubungan antar variabel serta karakteristik utama data melalui matriks korelasi, matriks varians–kovarians, dan analisis eigen.

Tujuan dari analisis ini adalah untuk: 1. Mengimpor dataset Raisin ke dalam R. 2. Menghitung matriks korelasi dan matriks varians-kovarians. 3. Menentukan nilai eigen dan vektor eigen. 4. Menginterpretasikan hasil analisis multivariat secara singkat dan jelas.

IMPORT DATA

library(readxl)

Baris ini digunakan untuk memanggil package readxl, yang berfungsi membaca file Excel (.xlsx) ke dalam lingkungan R.

Raisin_Dataset <- read_excel("C:/Users/HP/OneDrive/Desktop/raisin/Raisin_Dataset/Raisin_Dataset/Raisin_Dataset.xlsx")

head(Raisin_Dataset)
## # A tibble: 6 × 8
##    Area MajorAxisLength MinorAxisLength Eccentricity ConvexArea Extent Perimeter
##   <dbl>           <dbl>           <dbl>        <dbl>      <dbl>  <dbl>     <dbl>
## 1 87524            442.            253.        0.820      90546  0.759     1184.
## 2 75166            407.            243.        0.802      78789  0.684     1122.
## 3 90856            442.            266.        0.798      93717  0.638     1209.
## 4 45928            287.            209.        0.685      47336  0.700      844.
## 5 79408            352.            291.        0.564      81463  0.793     1073.
## 6 49242            318.            200.        0.777      51368  0.658      882.
## # ℹ 1 more variable: Class <chr>

Perintah read_excel() digunakan untuk mengimpor dataset Raisin ke dalam R dan menyimpannya dalam objek Raisin_Dataset. Fungsi head() menampilkan enam baris pertama dataset untuk memastikan data berhasil dimuat dengan benar.

data_num <- Raisin_Dataset[, -8]

Kode ini digunakan untuk mengambil seluruh kolom kecuali kolom ke-8 (Class), karena kolom tersebut bertipe kategorik dan tidak dapat digunakan dalam perhitungan korelasi. Hasilnya adalah dataset numerik murni.

a) Corellation Matriks

cor_matrix <- cor(data_num)
cor_matrix
##                        Area MajorAxisLength MinorAxisLength Eccentricity
## Area             1.00000000       0.9327744       0.9066499    0.3361066
## MajorAxisLength  0.93277443       1.0000000       0.7280302    0.5836084
## MinorAxisLength  0.90664987       0.7280302       1.0000000   -0.0276835
## Eccentricity     0.33610660       0.5836084      -0.0276835    1.0000000
## ConvexArea       0.99591967       0.9450309       0.8956513    0.3482103
## Extent          -0.01349934      -0.2038656       0.1453215   -0.3610615
## Perimeter        0.96135172       0.9779780       0.8274170    0.4478452
##                  ConvexArea      Extent  Perimeter
## Area             0.99591967 -0.01349934  0.9613517
## MajorAxisLength  0.94503093 -0.20386556  0.9779780
## MinorAxisLength  0.89565132  0.14532153  0.8274170
## Eccentricity     0.34821030 -0.36106149  0.4478452
## ConvexArea       1.00000000 -0.05480247  0.9766122
## Extent          -0.05480247  1.00000000 -0.1734489
## Perimeter        0.97661223 -0.17344893  1.0000000

Fungsi cor() digunakan untuk menghitung koefisien korelasi Pearson antar seluruh variabel numerik dalam dataset. Output berupa matriks korelasi dengan nilai antara -1 hingga 1, di mana:

Nilai mendekati 1 menunjukkan hubungan positif sangat kuat, Nilai mendekati -1 menunjukkan hubungan negatif sangat kuat, Nilai mendekati 0 menunjukkan hubungan lemah atau tidak ada hubungan.

b) Variance Covariance Matrix

cov_matrix <- cov(data_num)
cov_matrix
##                          Area MajorAxisLength MinorAxisLength  Eccentricity
## Area             1.521165e+09    4.221378e+06    1.767671e+06  1.183972e+03
## MajorAxisLength  4.221378e+06    1.346415e+04    4.222916e+03  6.116279e+00
## MinorAxisLength  1.767671e+06    4.222916e+03    2.498890e+03 -1.249887e-01
## Eccentricity     1.183972e+03    6.116279e+00   -1.249887e-01  8.157415e-03
## ConvexArea       1.583600e+09    4.470629e+06    1.825348e+06  1.282186e+03
## Extent          -2.815116e+01   -1.264820e+00    3.884178e-01 -1.743625e-03
## Perimeter        1.026472e+07    3.106672e+04    1.132335e+04  1.107340e+01
##                    ConvexArea        Extent     Perimeter
## Area             1.583600e+09 -2.815116e+01  1.026472e+07
## MajorAxisLength  4.470629e+06 -1.264820e+00  3.106672e+04
## MinorAxisLength  1.825348e+06  3.884178e-01  1.132335e+04
## Eccentricity     1.282186e+03 -1.743625e-03  1.107340e+01
## ConvexArea       1.662135e+09 -1.194617e+02  1.090014e+07
## Extent          -1.194617e+02  2.858848e-03 -2.538891e+00
## Perimeter        1.090014e+07 -2.538891e+00  7.494690e+04

Fungsi cov() digunakan untuk menghitung matriks kovarians antar seluruh variabel numerik dalam dataset. Matriks ini menunjukkan bagaimana dua variabel berubah secara bersamaan:

Nilai positif besar → kedua variabel meningkat bersama, Nilai negatif → satu variabel meningkat sementara yang lain menurun, Nilai mendekati 0 → hubungan linier lemah.

Diagonal utama matriks menunjukkan varians masing-masing variabel.

c) Eigen Value dan Eigen Vector

eigen_result <- eigen(cov_matrix)

Perintah ini melakukan dekomposisi eigen terhadap matriks kovarians, yang merupakan tahap utama dalam Principal Component Analysis (PCA).

eigen_result$values
## [1] 3.176903e+09 6.484070e+06 3.411647e+03 5.871721e+02 4.592383e+01
## [6] 1.781033e-03 1.565458e-03

Eigen value menunjukkan besar varians yang dijelaskan oleh masing-masing komponen utama. Dari output terlihat bahwa eigenvalue pertama jauh lebih besar dibandingkan yang lain, yang berarti komponen utama pertama (PC1) menjelaskan sebagian besar variasi data.

eigen_result$vectors
##               [,1]          [,2]          [,3]          [,4]         [,5]
## [1,] -6.911978e-01  7.225900e-01  0.0099167946  2.336904e-03 -0.002339507
## [2,] -1.935429e-03 -6.101735e-03  0.5800095074 -5.162209e-01  0.630129625
## [3,] -7.998219e-04  2.427483e-03 -0.2137523625  6.499835e-01  0.729259089
## [4,] -5.492743e-07 -4.737215e-06  0.0010540138 -1.661067e-03 -0.001299584
## [5,] -7.226472e-01 -6.910123e-01 -0.0159270484 -5.209011e-03  0.001481976
## [6,]  3.330314e-08  9.602308e-06 -0.0003483057  7.835626e-05  0.001134514
## [7,] -4.712872e-03 -1.795989e-02  0.7858407300  5.576756e-01 -0.266659316
##               [,6]          [,7]
## [1,]  1.174284e-06  6.537297e-06
## [2,]  4.904183e-04  6.364268e-04
## [3,]  8.891598e-04 -2.278570e-03
## [4,] -2.806809e-02 -9.996032e-01
## [5,] -1.815070e-08 -6.392384e-06
## [6,] -9.996054e-01  2.806617e-02
## [7,] -5.255305e-04  2.634392e-04

Eigenvector menunjukkan arah komponen utama, yaitu bobot kontribusi masing-masing variabel asli terhadap setiap komponen utama. Setiap kolom merepresentasikan satu komponen utama, sedangkan setiap baris menunjukkan kontribusi variabel terhadap komponen tersebut.

KESIMPULAN

Berdasarkan hasil analisis korelasi, menunjukkan bahwa sebagian besar variabel ukuran buah seperti Area, ConvexArea, MajorAxisLength, dan Perimeter memiliki hubungan yang sangat kuat, sehingga terdapat multikolinearitas dalam dataset. Matriks kovarians menegaskan bahwa variasi terbesar berasal dari fitur ukuran fisik buah, sedangkan fitur bentuk seperti Extent dan Eccentricity memiliki kontribusi variasi yang lebih kecil. Hasil dekomposisi eigen memperlihatkan bahwa komponen utama pertama mampu menjelaskan sebagian besar variasi data, sementara komponen lainnya memberikan kontribusi minimal. Oleh karena itu, dataset ini sangat cocok untuk dilakukan reduksi dimensi menggunakan PCA sebelum tahap pemodelan, agar model menjadi lebih efisien tanpa kehilangan informasi penting.