library(readxl)
data <- read_excel("Raisin_Dataset.xlsx")
Setelah data berhasil diimpor, dataset siap digunakan untuk analisis lebih lanjut. Data ini terdiri dari beberapa variabel yang menggambarkan karakteristik, baik numerik maupun non-numerik.
data_num <- data[, sapply(data, is.numeric)]
Hasil dari langkah di atas adalah membuat dataset baru yang hanya berisi variabel numerik seperti Area, MajorAxisLength, MinorAxisLength, Eccentricity, ConvexArea, Extent, dan Perimeter untuk perhitungan korelasi dan hanya dapat dilakukan pada data numerik.
cor_matrix <- cor(data_num)
round(cor_matrix, 3)
## Area MajorAxisLength MinorAxisLength Eccentricity ConvexArea
## Area 1.000 0.933 0.907 0.336 0.996
## MajorAxisLength 0.933 1.000 0.728 0.584 0.945
## MinorAxisLength 0.907 0.728 1.000 -0.028 0.896
## Eccentricity 0.336 0.584 -0.028 1.000 0.348
## ConvexArea 0.996 0.945 0.896 0.348 1.000
## Extent -0.013 -0.204 0.145 -0.361 -0.055
## Perimeter 0.961 0.978 0.827 0.448 0.977
## Extent Perimeter
## Area -0.013 0.961
## MajorAxisLength -0.204 0.978
## MinorAxisLength 0.145 0.827
## Eccentricity -0.361 0.448
## ConvexArea -0.055 0.977
## Extent 1.000 -0.173
## Perimeter -0.173 1.000
Hasil correlation matrix menunjukkan bahwa variabel ukuran seperti Area, MajorAxisLength, MinorAxisLength, ConvexArea, dan Perimeter memiliki korelasi positif yang kuat satu sama lain, yang berarti peningkatan ukuran raisin diikuti oleh peningkatan dimensi lainnya. Eccentricity memiliki hubungan yang relatif lemah terhadap sebagian besar variabel ukuran dan menunjukkan korelasi negatif dengan Extent, menandakan bahwa bentuk raisin yang semakin lonjong cenderung memiliki nilai extent yang lebih kecil. Secara umum, hasil ini menunjukkan adanya keterkaitan yang erat antar variabel ukuran dalam dataset.
cov_matrix <- cov(data_num)
cov_matrix
## Area MajorAxisLength MinorAxisLength Eccentricity
## Area 1.521165e+09 4.221378e+06 1.767671e+06 1.183972e+03
## MajorAxisLength 4.221378e+06 1.346415e+04 4.222916e+03 6.116279e+00
## MinorAxisLength 1.767671e+06 4.222916e+03 2.498890e+03 -1.249887e-01
## Eccentricity 1.183972e+03 6.116279e+00 -1.249887e-01 8.157415e-03
## ConvexArea 1.583600e+09 4.470629e+06 1.825348e+06 1.282186e+03
## Extent -2.815116e+01 -1.264820e+00 3.884178e-01 -1.743625e-03
## Perimeter 1.026472e+07 3.106672e+04 1.132335e+04 1.107340e+01
## ConvexArea Extent Perimeter
## Area 1.583600e+09 -2.815116e+01 1.026472e+07
## MajorAxisLength 4.470629e+06 -1.264820e+00 3.106672e+04
## MinorAxisLength 1.825348e+06 3.884178e-01 1.132335e+04
## Eccentricity 1.282186e+03 -1.743625e-03 1.107340e+01
## ConvexArea 1.662135e+09 -1.194617e+02 1.090014e+07
## Extent -1.194617e+02 2.858848e-03 -2.538891e+00
## Perimeter 1.090014e+07 -2.538891e+00 7.494690e+04
Hasil variance–covariance matrix menunjukkan bahwa varians terbesar terdapat pada variabel Area, ConvexArea, dan Perimeter, yang menandakan ketiga variabel tersebut memiliki penyebaran data paling besar. Nilai kovarians positif antara Area, MajorAxisLength, MinorAxisLength, ConvexArea, dan Perimeter menunjukkan bahwa variabel-variabel ukuran ini cenderung meningkat secara bersamaan. Sebaliknya, Eccentricity dan Extent memiliki kovarians yang relatif kecil dan sebagian bernilai negatif terhadap variabel ukuran, yang mengindikasikan hubungan yang lemah atau berlawanan arah. Secara umum, matriks ini menegaskan bahwa variabel berbasis ukuran saling berkaitan kuat dalam skala aslinya.
eigen_result <- eigen(cov_matrix)
eigen_result$values
## [1] 3.176903e+09 6.484070e+06 3.411647e+03 5.871721e+02 4.592383e+01
## [6] 1.781033e-03 1.565458e-03
eigen_result$vectors
## [,1] [,2] [,3] [,4] [,5]
## [1,] -6.911978e-01 7.225900e-01 0.0099167946 2.336904e-03 -0.002339507
## [2,] -1.935429e-03 -6.101735e-03 0.5800095074 -5.162209e-01 0.630129625
## [3,] -7.998219e-04 2.427483e-03 -0.2137523625 6.499835e-01 0.729259089
## [4,] -5.492743e-07 -4.737215e-06 0.0010540138 -1.661067e-03 -0.001299584
## [5,] -7.226472e-01 -6.910123e-01 -0.0159270484 -5.209011e-03 0.001481976
## [6,] 3.330314e-08 9.602308e-06 -0.0003483057 7.835626e-05 0.001134514
## [7,] -4.712872e-03 -1.795989e-02 0.7858407300 5.576756e-01 -0.266659316
## [,6] [,7]
## [1,] 1.174284e-06 6.537297e-06
## [2,] 4.904183e-04 6.364268e-04
## [3,] 8.891598e-04 -2.278570e-03
## [4,] -2.806809e-02 -9.996032e-01
## [5,] -1.815070e-08 -6.392384e-06
## [6,] -9.996054e-01 2.806617e-02
## [7,] -5.255305e-04 2.634392e-04
Eigen Value menunjukkan besarnya variasi data yang dijelaskan oleh setiap komponen utama. Nilai eigen terbesar ada pada komponen pertama, artinya komponen ini menjelaskan variasi data paling dominan. Komponen kedua masih menyumbang variasi, tetapi jauh lebih kecil. Komponen-komponen selanjutnya memiliki nilai eigen sangat kecil, sehingga kontribusinya terhadap variasi data dapat diabaikan. Dengan demikian, sebagian besar informasi data sudah cukup diwakili oleh 1–2 komponen utama pertama.
Eigen Vector menunjukkan seberapa besar peran masing-masing variabel dalam membentuk setiap komponen utama. Pada komponen pertama, variabel Area dan ConvexArea memiliki kontribusi paling besar, sehingga paling berpengaruh. Pada komponen berikutnya, kontribusi variabel lain seperti MajorAxisLength, MinorAxisLength, dan Perimeter mulai terlihat. Ini berarti setiap komponen utama merepresentasikan kombinasi karakteristik data yang berbeda.
Berdasarkan hasil analisis multivariat, variabel-variabel numerik pada dataset Raisin menunjukkan hubungan yang kuat, terutama antar variabel ukuran seperti Area, MajorAxisLength, MinorAxisLength, ConvexArea, dan Perimeter. Hal ini terlihat dari nilai korelasi dan kovarians yang relatif tinggi serta searah, yang menandakan bahwa peningkatan satu ukuran diikuti oleh peningkatan ukuran lainnya. Hasil eigen menunjukkan bahwa sebagian besar variasi data dijelaskan oleh komponen utama pertama dan kedua, dengan kontribusi terbesar berasal dari variabel ukuran, sementara komponen lainnya memiliki pengaruh yang sangat kecil. Dengan demikian, struktur data dapat direpresentasikan secara efektif menggunakan satu hingga dua komponen utama tanpa kehilangan informasi yang signifikan, sehingga analisis lanjutan dapat dilakukan dengan lebih sederhana dan efisien.