Pengantar

Analisis multivariat merupakan metode statistik yang digunakan untuk menganalisis beberapa variabel secara simultan. Metode ini berguna untuk memahami hubungan antar variabel serta struktur variasi dalam suatu dataset.

Laporan ini bertujuan untuk menganalisis dataset Raisin yang diperoleh dari UCI Machine Learning Repository dengan menggunakan correlation matrix, variance-covariance matrix, eigen value, dan eigen vector.

Deskripsi Dataset

Dataset Raisin bersumber dari UCI Machine Learning Repository yang berisi informasi karakterisitik fisik buah Raisin. Pada dataset ini berisi 7 kolom numerik dan 1 kolom kategori (sebagai class). Analisis ini menggunakan hubungan antar variabel serta struktur variasi data menggunakan pendekatan analsis multivariat dimana dengan kolom class diabaikan.

Load Dataset

Hal pertama yang perlu dilakukan adalah mengunduh dataset Raisin pada UCI Machine Learning Repository. Selanjutnya mengunggah file Raisin_Dataset.xlsx pada R studio. Supaya dataset dengan format xlsx tersebut terbaca maka perlu mengunduh package readxl

install.packages("readxl")
## Installing package into '/cloud/lib/x86_64-pc-linux-gnu-library/4.5'
## (as 'lib' is unspecified)

Selanjutnya adalah me-loud dataset dengan kode sebagai berikut:

library(readxl)
data <-  read_excel("Raisin_Dataset.xlsx")

Setelah dataset terbaca, selanjutnya menentukan kolom numeric saja yang akan digunakan untuk analisis dan mengabaikan kolom class

raisin_num <- data[sapply(data,  is.numeric)]
str(raisin_num)
## tibble [900 × 7] (S3: tbl_df/tbl/data.frame)
##  $ Area           : num [1:900] 87524 75166 90856 45928 79408 ...
##  $ MajorAxisLength: num [1:900] 442 407 442 287 352 ...
##  $ MinorAxisLength: num [1:900] 253 243 266 209 291 ...
##  $ Eccentricity   : num [1:900] 0.82 0.802 0.798 0.685 0.564 ...
##  $ ConvexArea     : num [1:900] 90546 78789 93717 47336 81463 ...
##  $ Extent         : num [1:900] 0.759 0.684 0.638 0.7 0.793 ...
##  $ Perimeter      : num [1:900] 1184 1122 1209 844 1073 ...

Analisis Correlation Matrix

Matriks korelasi digunakan untuk mengetahui hubungan linear antar variabel numerik dalam dataset. Nilai korelasi berada pada rentang -1 hingga 1, di mana nilai mendekati 1 menunjukkan hubungan positif yang kuat (jika kolom A naik maka kolom B juga naik), sedangkan nilai mendekati 0 menunjukkan hubungan yang lemah. Apabila korelasi mendekati -1 maka korelasinya adalah negatif kuat atau berlawanan (jika A naik maka B nilainya akan turun). Berikut kode untuk mengetahui matrix korelasi dari datset Raisin:

cor_matrix<-cor(raisin_num)
cor_matrix
##                        Area MajorAxisLength MinorAxisLength Eccentricity
## Area             1.00000000       0.9327744       0.9066499    0.3361066
## MajorAxisLength  0.93277443       1.0000000       0.7280302    0.5836084
## MinorAxisLength  0.90664987       0.7280302       1.0000000   -0.0276835
## Eccentricity     0.33610660       0.5836084      -0.0276835    1.0000000
## ConvexArea       0.99591967       0.9450309       0.8956513    0.3482103
## Extent          -0.01349934      -0.2038656       0.1453215   -0.3610615
## Perimeter        0.96135172       0.9779780       0.8274170    0.4478452
##                  ConvexArea      Extent  Perimeter
## Area             0.99591967 -0.01349934  0.9613517
## MajorAxisLength  0.94503093 -0.20386556  0.9779780
## MinorAxisLength  0.89565132  0.14532153  0.8274170
## Eccentricity     0.34821030 -0.36106149  0.4478452
## ConvexArea       1.00000000 -0.05480247  0.9766122
## Extent          -0.05480247  1.00000000 -0.1734489
## Perimeter        0.97661223 -0.17344893  1.0000000

Berdasarkan hasil correlation matrix pada dataset Raisin, terlihat bahwa variabel-variabel yang berkaitan dengan ukuran fisik seperti Area, MajorAxisLength, MinorAxisLength, ConvexArea, dan Perimeter memiliki korelasi positif yang sangat kuat satu sama lain. Hal ini menunjukkan bahwa semakin besar ukuran Raisin, maka dimensi-dimensi ukurannya juga meningkat secara bersamaan. Variabel Eccentricity memiliki hubungan positif sedang dengan MajorAxisLength, namun hubungannya dengan MinorAxisLength relatif lemah. Sementara itu, Extent menunjukkan korelasi negatif dengan sebagian besar variabel ukuran, yang menandakan bahwa Raisin yang lebih besar atau lebih memanjang cenderung memiliki kepadatan bentuk yang lebih rendah.

Analisis Variance-Covariance Matrix

Matriks varians–kovarians digunakan untuk menggambarkan tingkat penyebaran data serta bagaimana dua variabel berubah secara bersamaan. Nilai varians terdapat pada diagonal matriks, sedangkan nilai di luar diagonal menunjukkan kovarians antar variabel.

cov_matrix<-cov(raisin_num)
cov_matrix
##                          Area MajorAxisLength MinorAxisLength  Eccentricity
## Area             1.521165e+09    4.221378e+06    1.767671e+06  1.183972e+03
## MajorAxisLength  4.221378e+06    1.346415e+04    4.222916e+03  6.116279e+00
## MinorAxisLength  1.767671e+06    4.222916e+03    2.498890e+03 -1.249887e-01
## Eccentricity     1.183972e+03    6.116279e+00   -1.249887e-01  8.157415e-03
## ConvexArea       1.583600e+09    4.470629e+06    1.825348e+06  1.282186e+03
## Extent          -2.815116e+01   -1.264820e+00    3.884178e-01 -1.743625e-03
## Perimeter        1.026472e+07    3.106672e+04    1.132335e+04  1.107340e+01
##                    ConvexArea        Extent     Perimeter
## Area             1.583600e+09 -2.815116e+01  1.026472e+07
## MajorAxisLength  4.470629e+06 -1.264820e+00  3.106672e+04
## MinorAxisLength  1.825348e+06  3.884178e-01  1.132335e+04
## Eccentricity     1.282186e+03 -1.743625e-03  1.107340e+01
## ConvexArea       1.662135e+09 -1.194617e+02  1.090014e+07
## Extent          -1.194617e+02  2.858848e-03 -2.538891e+00
## Perimeter        1.090014e+07 -2.538891e+00  7.494690e+04

Variance–covariance matrix menunjukkan besarnya variasi masing-masing variabel serta arah hubungan antar variabel dalam skala aslinya. Terlihat bahwa variabel Area dan ConvexArea memiliki nilai varians yang sangat besar, menandakan tingkat penyebaran data yang tinggi pada ukuran Raisin. Nilai kovarians positif yang besar antara Area, MajorAxisLength, MinorAxisLength, dan Perimeter menunjukkan bahwa peningkatan satu variabel ukuran biasanya diikuti oleh peningkatan variabel ukuran lainnya. Sebaliknya, kovarians bernilai negatif pada Extent dengan sebagian besar variabel ukuran menunjukkan adanya hubungan berlawanan arah, meskipun dengan nilai yang relatif kecil. Variabel Eccentricity memiliki nilai varians yang sangat kecil dibandingkan variabel lain, yang menunjukkan bahwa bentuk Raisin relatif seragam.

Analisis Eigen value dan eigen vector

Analisis eigen dilakukan untuk mengetahui struktur variasi data melalui eigen value dan eigen vector. Eigen value menunjukkan besarnya variasi data yang dijelaskan oleh masing-masing komponen utama, sedangkan eigen vector menunjukkan arah kontribusi setiap variabel terhadap komponen tersebut.

eigen_result<-eigen(cov_matrix)
eigen_result$values
## [1] 3.176903e+09 6.484070e+06 3.411647e+03 5.871721e+02 4.592383e+01
## [6] 1.781033e-03 1.565458e-03

Hasil eigen value menunjukkan bahwa komponen utama pertama memiliki eigen value sebesar 3.176903 × 10⁹, yang berarti komponen ini menjelaskan variasi terbesar dalam dataset. Komponen kedua memiliki eigen value 6.484070 × 10⁶, sedangkan komponen ketiga dan keempat masing-masing sebesar 3.411647 × 10³ dan 5.871721 × 10², dengan kontribusi variasi yang jauh lebih kecil. Eigen value selanjutnya memiliki nilai yang sangat kecil, yaitu 4.592383 × 10¹, 1.781033 × 10⁻³, dan 1.565458 × 10⁻³, sehingga kontribusinya terhadap variasi data dapat diabaikan.

eigen_result$vectors
##               [,1]          [,2]          [,3]          [,4]         [,5]
## [1,] -6.911978e-01  7.225900e-01  0.0099167946  2.336904e-03  0.002339507
## [2,] -1.935429e-03 -6.101735e-03  0.5800095074 -5.162209e-01 -0.630129625
## [3,] -7.998219e-04  2.427483e-03 -0.2137523625  6.499835e-01 -0.729259089
## [4,] -5.492743e-07 -4.737215e-06  0.0010540138 -1.661067e-03  0.001299584
## [5,] -7.226472e-01 -6.910123e-01 -0.0159270484 -5.209011e-03 -0.001481976
## [6,]  3.330314e-08  9.602308e-06 -0.0003483057  7.835626e-05 -0.001134514
## [7,] -4.712872e-03 -1.795989e-02  0.7858407300  5.576756e-01  0.266659316
##               [,6]          [,7]
## [1,]  1.174284e-06  6.537297e-06
## [2,]  4.904183e-04  6.364268e-04
## [3,]  8.891598e-04 -2.278570e-03
## [4,] -2.806809e-02 -9.996032e-01
## [5,] -1.815070e-08 -6.392384e-06
## [6,] -9.996054e-01  2.806617e-02
## [7,] -5.255305e-04  2.634392e-04

Hasil eigen vector menunjukkan kontribusi masing-masing variabel terhadap setiap komponen utama. Pada komponen utama pertama (PC1), nilai eigen vector terbesar terdapat pada Area (−0.6912) dan ConvexArea (−0.7226), yang menunjukkan bahwa PC1 terutama merepresentasikan ukuran luas Raisin. Komponen utama kedua (PC2) juga dipengaruhi oleh Area (0.7226) dan ConvexArea (−0.6910), yang menggambarkan variasi ukuran dengan arah yang berlawanan. Pada komponen utama ketiga (PC3), kontribusi terbesar berasal dari Perimeter (0.7858) dan MajorAxisLength (0.5800), yang menunjukkan bahwa komponen ini berkaitan dengan dimensi bentuk Raisin.

Dataset: https://archive.ics.uci.edu/dataset/850/raisin