#Analisis multivariat merupakan metode statistik yang digunakan untuk menganalisis lebih dari satu variabel secara simultan.Pada tugas ini, analisis dilakukan terhadap Dataset Raisin untuk melihat hubungan antar variabel numerik menggunakan matriks korelasi, matriks varians–kovarians, serta analisis eigen.
#Dataset yang digunakan adalah dataset raisin dengan format excel
library(readxl)
Dataset <- read_excel("Raisin_Dataset.xlsx")
head(Dataset)
## # A tibble: 6 × 8
## Area MajorAxisLength MinorAxisLength Eccentricity ConvexArea Extent Perimeter
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 87524 442. 253. 0.820 90546 0.759 1184.
## 2 75166 407. 243. 0.802 78789 0.684 1122.
## 3 90856 442. 266. 0.798 93717 0.638 1209.
## 4 45928 287. 209. 0.685 47336 0.700 844.
## 5 79408 352. 291. 0.564 81463 0.793 1073.
## 6 49242 318. 200. 0.777 51368 0.658 882.
## # ℹ 1 more variable: Class <chr>
#Variabel Class dihapus karena yang dibutuhkan hanya data berupa angka saja
Dataset <- Dataset[, -which(names(Dataset) == "Class")]
str(Dataset)
## tibble [900 × 7] (S3: tbl_df/tbl/data.frame)
## $ Area : num [1:900] 87524 75166 90856 45928 79408 ...
## $ MajorAxisLength: num [1:900] 442 407 442 287 352 ...
## $ MinorAxisLength: num [1:900] 253 243 266 209 291 ...
## $ Eccentricity : num [1:900] 0.82 0.802 0.798 0.685 0.564 ...
## $ ConvexArea : num [1:900] 90546 78789 93717 47336 81463 ...
## $ Extent : num [1:900] 0.759 0.684 0.638 0.7 0.793 ...
## $ Perimeter : num [1:900] 1184 1122 1209 844 1073 ...
#Digunakan untuk melihat hubungan antar variabel
cor_matrix <- cor(Dataset)
round(cor_matrix, 3)
## Area MajorAxisLength MinorAxisLength Eccentricity ConvexArea
## Area 1.000 0.933 0.907 0.336 0.996
## MajorAxisLength 0.933 1.000 0.728 0.584 0.945
## MinorAxisLength 0.907 0.728 1.000 -0.028 0.896
## Eccentricity 0.336 0.584 -0.028 1.000 0.348
## ConvexArea 0.996 0.945 0.896 0.348 1.000
## Extent -0.013 -0.204 0.145 -0.361 -0.055
## Perimeter 0.961 0.978 0.827 0.448 0.977
## Extent Perimeter
## Area -0.013 0.961
## MajorAxisLength -0.204 0.978
## MinorAxisLength 0.145 0.827
## Eccentricity -0.361 0.448
## ConvexArea -0.055 0.977
## Extent 1.000 -0.173
## Perimeter -0.173 1.000
#Dari hasiil cor_matrix membuktikan adanya hubungan keterkaitan antar variabel
#Digunakan untuk menunjukkan seberapa besar variasi disetiap variabel
cov_matrix <- cov(Dataset)
cov_matrix
## Area MajorAxisLength MinorAxisLength Eccentricity
## Area 1.521165e+09 4.221378e+06 1.767671e+06 1.183972e+03
## MajorAxisLength 4.221378e+06 1.346415e+04 4.222916e+03 6.116279e+00
## MinorAxisLength 1.767671e+06 4.222916e+03 2.498890e+03 -1.249887e-01
## Eccentricity 1.183972e+03 6.116279e+00 -1.249887e-01 8.157415e-03
## ConvexArea 1.583600e+09 4.470629e+06 1.825348e+06 1.282186e+03
## Extent -2.815116e+01 -1.264820e+00 3.884178e-01 -1.743625e-03
## Perimeter 1.026472e+07 3.106672e+04 1.132335e+04 1.107340e+01
## ConvexArea Extent Perimeter
## Area 1.583600e+09 -2.815116e+01 1.026472e+07
## MajorAxisLength 4.470629e+06 -1.264820e+00 3.106672e+04
## MinorAxisLength 1.825348e+06 3.884178e-01 1.132335e+04
## Eccentricity 1.282186e+03 -1.743625e-03 1.107340e+01
## ConvexArea 1.662135e+09 -1.194617e+02 1.090014e+07
## Extent -1.194617e+02 2.858848e-03 -2.538891e+00
## Perimeter 1.090014e+07 -2.538891e+00 7.494690e+04
#Nilai diagonal menunjukkan varians per variabel,sedangkan diluar diagonal menunjukkan kovarian
#Digunakan untuk mengetahui bagian utama yang menjelaskan variasi terbesar
eigen_result <- eigen(cor_matrix)
eigen_result$values
## [1] 4.832288611 1.453188439 0.628449468 0.056824512 0.021808269 0.006430191
## [7] 0.001010510
#Bagian utama yang pertama memiliki aigen value terbesar,sehingga menjelaskan proporsi variasi data paling besar
#Dari semua kesimpulan sementara,terbukti bahwa variabel numerik dalam dataset raisin memiliki hubungan yang kuat