Analisis Multivariat

Pendahuluan

#Analisis multivariat merupakan metode statistik yang digunakan untuk menganalisis lebih dari satu variabel secara simultan.Pada tugas ini, analisis dilakukan terhadap Dataset Raisin untuk melihat hubungan antar variabel numerik menggunakan matriks korelasi, matriks varians–kovarians, serta analisis eigen.

Import Dataset

#Dataset yang digunakan adalah dataset raisin dengan format excel

library(readxl)
Dataset <- read_excel("Raisin_Dataset.xlsx")
head(Dataset)
## # A tibble: 6 × 8
##    Area MajorAxisLength MinorAxisLength Eccentricity ConvexArea Extent Perimeter
##   <dbl>           <dbl>           <dbl>        <dbl>      <dbl>  <dbl>     <dbl>
## 1 87524            442.            253.        0.820      90546  0.759     1184.
## 2 75166            407.            243.        0.802      78789  0.684     1122.
## 3 90856            442.            266.        0.798      93717  0.638     1209.
## 4 45928            287.            209.        0.685      47336  0.700      844.
## 5 79408            352.            291.        0.564      81463  0.793     1073.
## 6 49242            318.            200.        0.777      51368  0.658      882.
## # ℹ 1 more variable: Class <chr>

Menghapus Variabel Class

#Variabel Class dihapus karena yang dibutuhkan hanya data berupa angka saja

Dataset <- Dataset[, -which(names(Dataset) == "Class")]
str(Dataset)
## tibble [900 × 7] (S3: tbl_df/tbl/data.frame)
##  $ Area           : num [1:900] 87524 75166 90856 45928 79408 ...
##  $ MajorAxisLength: num [1:900] 442 407 442 287 352 ...
##  $ MinorAxisLength: num [1:900] 253 243 266 209 291 ...
##  $ Eccentricity   : num [1:900] 0.82 0.802 0.798 0.685 0.564 ...
##  $ ConvexArea     : num [1:900] 90546 78789 93717 47336 81463 ...
##  $ Extent         : num [1:900] 0.759 0.684 0.638 0.7 0.793 ...
##  $ Perimeter      : num [1:900] 1184 1122 1209 844 1073 ...

Correlation Matrix

#Digunakan untuk melihat hubungan antar variabel

cor_matrix <- cor(Dataset)
round(cor_matrix, 3)
##                   Area MajorAxisLength MinorAxisLength Eccentricity ConvexArea
## Area             1.000           0.933           0.907        0.336      0.996
## MajorAxisLength  0.933           1.000           0.728        0.584      0.945
## MinorAxisLength  0.907           0.728           1.000       -0.028      0.896
## Eccentricity     0.336           0.584          -0.028        1.000      0.348
## ConvexArea       0.996           0.945           0.896        0.348      1.000
## Extent          -0.013          -0.204           0.145       -0.361     -0.055
## Perimeter        0.961           0.978           0.827        0.448      0.977
##                 Extent Perimeter
## Area            -0.013     0.961
## MajorAxisLength -0.204     0.978
## MinorAxisLength  0.145     0.827
## Eccentricity    -0.361     0.448
## ConvexArea      -0.055     0.977
## Extent           1.000    -0.173
## Perimeter       -0.173     1.000

Hasil sementara

#Dari hasiil cor_matrix membuktikan adanya hubungan keterkaitan antar variabel

Variance dan Covariance Matrix

#Digunakan untuk menunjukkan seberapa besar variasi disetiap variabel

cov_matrix <- cov(Dataset)
cov_matrix
##                          Area MajorAxisLength MinorAxisLength  Eccentricity
## Area             1.521165e+09    4.221378e+06    1.767671e+06  1.183972e+03
## MajorAxisLength  4.221378e+06    1.346415e+04    4.222916e+03  6.116279e+00
## MinorAxisLength  1.767671e+06    4.222916e+03    2.498890e+03 -1.249887e-01
## Eccentricity     1.183972e+03    6.116279e+00   -1.249887e-01  8.157415e-03
## ConvexArea       1.583600e+09    4.470629e+06    1.825348e+06  1.282186e+03
## Extent          -2.815116e+01   -1.264820e+00    3.884178e-01 -1.743625e-03
## Perimeter        1.026472e+07    3.106672e+04    1.132335e+04  1.107340e+01
##                    ConvexArea        Extent     Perimeter
## Area             1.583600e+09 -2.815116e+01  1.026472e+07
## MajorAxisLength  4.470629e+06 -1.264820e+00  3.106672e+04
## MinorAxisLength  1.825348e+06  3.884178e-01  1.132335e+04
## Eccentricity     1.282186e+03 -1.743625e-03  1.107340e+01
## ConvexArea       1.662135e+09 -1.194617e+02  1.090014e+07
## Extent          -1.194617e+02  2.858848e-03 -2.538891e+00
## Perimeter        1.090014e+07 -2.538891e+00  7.494690e+04

Penjelasam

#Nilai diagonal menunjukkan varians per variabel,sedangkan diluar diagonal menunjukkan kovarian

Eigen Value dan Eigen Vector

#Digunakan untuk mengetahui bagian utama yang menjelaskan variasi terbesar

eigen_result <- eigen(cor_matrix)
eigen_result$values
## [1] 4.832288611 1.453188439 0.628449468 0.056824512 0.021808269 0.006430191
## [7] 0.001010510

Simpulan sementara

#Bagian utama yang pertama memiliki aigen value terbesar,sehingga menjelaskan proporsi variasi data paling besar

Kesimpulan

#Dari semua kesimpulan sementara,terbukti bahwa variabel numerik dalam dataset raisin memiliki hubungan yang kuat