Pendahuluan

Analisis Multivariat merupakan salah satu teknik statistik yang diterapkan untuk memahami struktur data yang terdiri dari banyak variabel. Metode Analisis Multivariat adalah suatu metode statistika yang tujuannya untuk digunakan dalam proses analisis data yang terdiri dari banyak variabel serta diduga antar variabel tersebut saling berhubungan satu sama lain.

Penjelasan Dataset

Dataset yang digunakan untuk analisis adalah Dataset Raisin yang bersumber dari UCI Machine Learning Repository. Dataset Raisin merupakan dataset yang berisi data karakteristik fisik buah kismis yang diperoleh proses Pengolahan Citra. Setiap baris dalam Dataset Raisin merepesentasikan satu sampel dari buah kismis, sedangkan setiap kolom dalam dataset merepresentasikan ciri fisik dari buah kismis. Dataset Raisin terdiri dari kolom yang merepresentasikan ciri fisik dari buah kismis, diantaranya terdapat kolom Area, MajorAxisLength, MinorAxisLength, Eccentricity, ConvexArea, Extent, Perimeter, dan Class. Berikut merupakan penjelasan dari setiap kolom dalam dataset: 1. Area: Menunjukkan luas permukaan objek kismis dalam satuan piksel. 2. MajorAxisLength: Panjang sumbu utama elips yang merepresentasikan bentuk kismis. 3. MinorAxisLength: Panjang sumbu minor elips yang merepresentasikan bentuk kismis. 4. Eccentricity: Menggambarkan tingkat keovalan bentuk kismis. Nilai mendekati 0 menunjukkan bahwa tingkat keovalan ben tuk kismis mendekati lingkaran, sedangkan nilai mendekati 1 menunjukkan bahwa tingkat keovalan menunjukkan tingkat keovalan bentuk kismis mendekati lonjong. 5. ConvexArea: Luas area konveks yang mengelilingi objek kismis (luas area cembung kismis). 6. Extent: Perbandingan antara area objek dengan area bounding box yang menunjukkan seberapa penuh objek mengisi area kotaknya. 7. Perimeter: Panjang keliling objek kismis. 8. Class: Menunjukkan jenis dari buah kismis.

Tahapan Analisis

Tahapan analisis yang dilakukan meliputi: 1. Mengimport dataset Raisin 2. Memeriksa struktur dan tipe data setiap variabel 3. Memilih variabel numerik untuk proses analisis multivariat 4. Menghitung Matriks Korelasi 5. Menghitung Matriks varians-kovarians 6. Melakukan dekomposisi eigen untuk memperoleh eigen value dan eigen vector

# Analisis Dataset Raisin

# Penggunaan Library readxl
library(readxl)
# Import Dataset
Raisin_Dataset <- read_excel(file.choose())

# Memeriksa Struktur Dataset
str(Raisin_Dataset)
## tibble [900 × 8] (S3: tbl_df/tbl/data.frame)
##  $ Area           : num [1:900] 87524 75166 90856 45928 79408 ...
##  $ MajorAxisLength: num [1:900] 442 407 442 287 352 ...
##  $ MinorAxisLength: num [1:900] 253 243 266 209 291 ...
##  $ Eccentricity   : num [1:900] 0.82 0.802 0.798 0.685 0.564 ...
##  $ ConvexArea     : num [1:900] 90546 78789 93717 47336 81463 ...
##  $ Extent         : num [1:900] 0.759 0.684 0.638 0.7 0.793 ...
##  $ Perimeter      : num [1:900] 1184 1122 1209 844 1073 ...
##  $ Class          : chr [1:900] "Kecimen" "Kecimen" "Kecimen" "Kecimen" ...
# Mememriksa tipe data
sapply(Raisin_Dataset, class)
##            Area MajorAxisLength MinorAxisLength    Eccentricity      ConvexArea 
##       "numeric"       "numeric"       "numeric"       "numeric"       "numeric" 
##          Extent       Perimeter           Class 
##       "numeric"       "numeric"     "character"
# Mengambil variabel numerik
Raisin_num <- Raisin_Dataset[, 1:7]
str(Raisin_num)
## tibble [900 × 7] (S3: tbl_df/tbl/data.frame)
##  $ Area           : num [1:900] 87524 75166 90856 45928 79408 ...
##  $ MajorAxisLength: num [1:900] 442 407 442 287 352 ...
##  $ MinorAxisLength: num [1:900] 253 243 266 209 291 ...
##  $ Eccentricity   : num [1:900] 0.82 0.802 0.798 0.685 0.564 ...
##  $ ConvexArea     : num [1:900] 90546 78789 93717 47336 81463 ...
##  $ Extent         : num [1:900] 0.759 0.684 0.638 0.7 0.793 ...
##  $ Perimeter      : num [1:900] 1184 1122 1209 844 1073 ...
# (a) Correlation Matrix
cor_matrix <- cor(Raisin_num)
print(cor_matrix)
##                        Area MajorAxisLength MinorAxisLength Eccentricity
## Area             1.00000000       0.9327744       0.9066499    0.3361066
## MajorAxisLength  0.93277443       1.0000000       0.7280302    0.5836084
## MinorAxisLength  0.90664987       0.7280302       1.0000000   -0.0276835
## Eccentricity     0.33610660       0.5836084      -0.0276835    1.0000000
## ConvexArea       0.99591967       0.9450309       0.8956513    0.3482103
## Extent          -0.01349934      -0.2038656       0.1453215   -0.3610615
## Perimeter        0.96135172       0.9779780       0.8274170    0.4478452
##                  ConvexArea      Extent  Perimeter
## Area             0.99591967 -0.01349934  0.9613517
## MajorAxisLength  0.94503093 -0.20386556  0.9779780
## MinorAxisLength  0.89565132  0.14532153  0.8274170
## Eccentricity     0.34821030 -0.36106149  0.4478452
## ConvexArea       1.00000000 -0.05480247  0.9766122
## Extent          -0.05480247  1.00000000 -0.1734489
## Perimeter        0.97661223 -0.17344893  1.0000000
# (b) Variance-Covariance Matrix
cov_matrix <- cov(Raisin_num)
print(cov_matrix)
##                          Area MajorAxisLength MinorAxisLength  Eccentricity
## Area             1.521165e+09    4.221378e+06    1.767671e+06  1.183972e+03
## MajorAxisLength  4.221378e+06    1.346415e+04    4.222916e+03  6.116279e+00
## MinorAxisLength  1.767671e+06    4.222916e+03    2.498890e+03 -1.249887e-01
## Eccentricity     1.183972e+03    6.116279e+00   -1.249887e-01  8.157415e-03
## ConvexArea       1.583600e+09    4.470629e+06    1.825348e+06  1.282186e+03
## Extent          -2.815116e+01   -1.264820e+00    3.884178e-01 -1.743625e-03
## Perimeter        1.026472e+07    3.106672e+04    1.132335e+04  1.107340e+01
##                    ConvexArea        Extent     Perimeter
## Area             1.583600e+09 -2.815116e+01  1.026472e+07
## MajorAxisLength  4.470629e+06 -1.264820e+00  3.106672e+04
## MinorAxisLength  1.825348e+06  3.884178e-01  1.132335e+04
## Eccentricity     1.282186e+03 -1.743625e-03  1.107340e+01
## ConvexArea       1.662135e+09 -1.194617e+02  1.090014e+07
## Extent          -1.194617e+02  2.858848e-03 -2.538891e+00
## Perimeter        1.090014e+07 -2.538891e+00  7.494690e+04
# (c) Eigen value dan eigen vector

# Eigen Decomposition
eigen_result <- eigen(cov_matrix)

# Eigen Value
eigen_values <- eigen_result$values
print(eigen_values)
## [1] 3.176903e+09 6.484070e+06 3.411647e+03 5.871721e+02 4.592383e+01
## [6] 1.781033e-03 1.565458e-03
# Eigen Vector
eigen_vectors <- eigen_result$vectors
print(eigen_vectors)
##               [,1]          [,2]          [,3]          [,4]         [,5]
## [1,] -6.911978e-01  7.225900e-01  0.0099167946  2.336904e-03 -0.002339507
## [2,] -1.935429e-03 -6.101735e-03  0.5800095074 -5.162209e-01  0.630129625
## [3,] -7.998219e-04  2.427483e-03 -0.2137523625  6.499835e-01  0.729259089
## [4,] -5.492743e-07 -4.737215e-06  0.0010540138 -1.661067e-03 -0.001299584
## [5,] -7.226472e-01 -6.910123e-01 -0.0159270484 -5.209011e-03  0.001481976
## [6,]  3.330314e-08  9.602308e-06 -0.0003483057  7.835626e-05  0.001134514
## [7,] -4.712872e-03 -1.795989e-02  0.7858407300  5.576756e-01 -0.266659316
##               [,6]          [,7]
## [1,]  1.174284e-06  6.537297e-06
## [2,]  4.904183e-04  6.364268e-04
## [3,]  8.891598e-04 -2.278570e-03
## [4,] -2.806809e-02 -9.996032e-01
## [5,] -1.815070e-08 -6.392384e-06
## [6,] -9.996054e-01  2.806617e-02
## [7,] -5.255305e-04  2.634392e-04

Penjelasan Output

Dataset Raisin diimpor menggunakan fungsi file.choose() untuk memudahkan pemilihan file dan menghindari kesalahan penulisan path direktori.Berdasarkan hasil pengecekan struktur data menggunakan fungsi str() diketahui bahwa dataset Risin terdiri dari 900 observasi dan 8 variabel. 7 variabel tersebut bertipe numerik dan 1 variabel bertipe karakter yaitu variabel Class. Variabel numerik merepresentasikan karakteristik fisik buah kismis, sedangkan variabel Class menunjukkan jenis kismis. Variabel yang digunakan hanya Variabel numerik saja sehingga hanya 7 Variabel yang digunakan dalam tahap perhitungan.

(a) Correlation Matrix

Matriks Korelasi digunakan untuk melihat hubungan linear antara variabel numerik. Berdasarkan hasil perhitungan, menunjukkan bahwa variabel Area, MajorAxisLength, ConvexArea, dan Perimeter, memiliki korelasi positif yang sangat kuat satu sama lain yang ditunjukkan dengan nilai Correlation Matriksnya mendekati 1.

Hasil Output: Korelasi antara Area dan ConvexArea sebesar 0.9959, Korelasi antara MajorAxisLenght dan Perimeter sebesar, 0.9779, Korelasi antara Area dan Perimeter sebesar 0.9613.

Nilai korelasi yang mendekati 1 tersebut menunjukkan adanya hubungan linear positif yang sangat kuat. Hal ini menunjukkan bahwa semakin besar ukuran fisik kismis maka luas, panjang sumbu utama kismis, luas area konveks, dan keliling kismis juga cenderung semakin besar. Sementara itu, pada variabel Extent menunjukkan korelasi yang relatif lemah terhadap variabel lainnya.

(b) Variance-Covariance Matrix

Matriks varians-kovarians digunakan untuk melihat besarnya variasi setiap variabel serta hubungan antar variabel dalam skala aslinya. Berdasarkan hasil perhitungan, menunjukkan bahwa variabel Area dan ConvexArea memiliki nilai Kovarians yang sangat besar.

Hasil output: Variabel Area memiliki nilai varians yang sangat besar sekitar 1.52 × 10⁹, Variabel ConvexArea memiliki varians sekitar 1.66 × 10⁹, Kovarians antara Area dan ConvexArea sebesar 1.58 × 10⁹.

Hasil tersebut menunjukkan bahwa variabel tersebut memiliki variasi yang tinggi dan saling berkaitan erat.

Nilai Kovarians yang besar pada variabel yang menunjukkan ukuran fisik seperti **Area, ConvexArea, dan *Perimeter menjelaskan bahwa variabel-variabel tersebut memiliki kontribusi besar terhadap variasi total. Sedangkan, variabel Extent** memiliki nilai Kovarians yang relatif kecil, hal ini menunjukkan bahwa variasinya lebih rendah daripada variabel lainnya

(c) Eigen Value dan Eigen Vector

Eigen value menunjukkan besarnya variasi data yang dapat dijelaskan oleh masing-masing komponen utama (Principal Component).Semakin besar nilai eigen value maka semakin besar variasi data yang dijelaskan oleh komponen utama tersebut.

Perhitungan eigen value dan eigen vector pada penelitian ini didasarkan pada matriks Variance-covariance, dikarenakan seluruh variabel numerik berada pada skala pengukuran yang serupa serta merepresentasikan karakteristik fisik objek yang sama. Dengan menggunakan matriks Variance-Covariance, variasi data yang dianalisis berdasarkan skala aslinya sehingga variabel dengan variasi besar dapat memberikan kontribusi yang sesuai terhadap pembentukan komponen utama

Berdasarkan hasil perhitungan, eigen value pertama memiliki nilai sebesar 3.176.903.000 yang lebih besar dibandingkan nilai eigen value lainnya. Hal ini menunjukkan jika komponen utama pertama (PC1) menjelaskan variasi data yang paling dominan. Sedangkan nilai eigen value selanjutnya menunjukkan penurunan yang signifikan, hal ini menunjukkan bahwa sebagian besar informasi dalam dataset sudah direpresentasikan oleh beberapa komponen utama pertama.

Eigen Vector menunjukkan kontribusi masing-masing variabel terhadap pembentukan komponen utama. Berdasarkan hasil perhitungan, Nilai Eigen Vector menunjukkan bahwa variabel Area, ConvexArea, dan Perimeter memiliki kontribusi terbesar pada komponen utama. Hal ini menunjukkan bahwa variasi utama dalam dataset Raisin sangat dipengaruhi oleh ukuran fisik kismis, luas area kismis, dan luas area Convex. Sedangkan variabel MajorAxisLength dan MinorAxisLength juga memberikan kontribusi terhadap komponen utama namun dengan pengaruh yang relatif lebih kecil, sementara itu variabel Extent dan Eccentetricity memiliki kontribusi yang relatif rendah terhadap komponen utama.

Dengan demikian, komponen utama pertama dapat diinterpretasikan sebagai representasi ukuran fisik buah kismis.