Pendahuluan

Dataset Raisin berasal dari UCI Machine Learning Repository dan berisi data morfologi biji kismis hasil ekstraksi citra digital. Variabel numerik pada dataset ini dianalisis menggunakan pendekatan analisis multivariat untuk mengetahui hubungan antar variabel serta struktur variasi data.

Tujuan analisis ini adalah:

  1. Membentuk matriks korelasi
  2. Membentuk matriks varians–kovarians
  3. Menghitung eigen value dan eigen vector
  4. Menginterpretasikan setiap hasil analisis

Import Dataset

Langkah awal adalah mengimpor data dan memastikan hanya kolom numerik yang digunakan untuk analisis matriks.

data_raisin <- read_excel("Raisin_Dataset.xlsx")
data_numeric <- data_raisin[, sapply(data_raisin, is.numeric)]
kable(head(data_numeric), caption = "Enam Baris Pertama Data Numerik Dataset Raisin")
Enam Baris Pertama Data Numerik Dataset Raisin
Area MajorAxisLength MinorAxisLength Eccentricity ConvexArea Extent Perimeter
87524 442.2460 253.2912 0.8197384 90546 0.7586506 1184.040
75166 406.6907 243.0324 0.8018052 78789 0.6841296 1121.786
90856 442.2670 266.3283 0.7983536 93717 0.6376128 1208.575
45928 286.5406 208.7600 0.6849892 47336 0.6995994 844.162
79408 352.1908 290.8275 0.5640113 81463 0.7927719 1073.251
49242 318.1254 200.1221 0.7773513 51368 0.6584564 881.836

a) Correlation Matrix

Matriks korelasi digunakan untuk mengukur kekuatan dan arah hubungan linear antara dua variabel.

cor_matrix <- cor(data_numeric)
cor_matrix
##                        Area MajorAxisLength MinorAxisLength Eccentricity
## Area             1.00000000       0.9327744       0.9066499    0.3361066
## MajorAxisLength  0.93277443       1.0000000       0.7280302    0.5836084
## MinorAxisLength  0.90664987       0.7280302       1.0000000   -0.0276835
## Eccentricity     0.33610660       0.5836084      -0.0276835    1.0000000
## ConvexArea       0.99591967       0.9450309       0.8956513    0.3482103
## Extent          -0.01349934      -0.2038656       0.1453215   -0.3610615
## Perimeter        0.96135172       0.9779780       0.8274170    0.4478452
##                  ConvexArea      Extent  Perimeter
## Area             0.99591967 -0.01349934  0.9613517
## MajorAxisLength  0.94503093 -0.20386556  0.9779780
## MinorAxisLength  0.89565132  0.14532153  0.8274170
## Eccentricity     0.34821030 -0.36106149  0.4478452
## ConvexArea       1.00000000 -0.05480247  0.9766122
## Extent          -0.05480247  1.00000000 -0.1734489
## Perimeter        0.97661223 -0.17344893  1.0000000

b) Variance-Covariance Matrix

Matriks ini menunjukkan bagaimana variansi satu variabel berkaitan dengan variansi variabel lainnya dalam skala aslinya.

cov_matrix <- cov(data_numeric)
cov_matrix
##                          Area MajorAxisLength MinorAxisLength  Eccentricity
## Area             1.521165e+09    4.221378e+06    1.767671e+06  1.183972e+03
## MajorAxisLength  4.221378e+06    1.346415e+04    4.222916e+03  6.116279e+00
## MinorAxisLength  1.767671e+06    4.222916e+03    2.498890e+03 -1.249887e-01
## Eccentricity     1.183972e+03    6.116279e+00   -1.249887e-01  8.157415e-03
## ConvexArea       1.583600e+09    4.470629e+06    1.825348e+06  1.282186e+03
## Extent          -2.815116e+01   -1.264820e+00    3.884178e-01 -1.743625e-03
## Perimeter        1.026472e+07    3.106672e+04    1.132335e+04  1.107340e+01
##                    ConvexArea        Extent     Perimeter
## Area             1.583600e+09 -2.815116e+01  1.026472e+07
## MajorAxisLength  4.470629e+06 -1.264820e+00  3.106672e+04
## MinorAxisLength  1.825348e+06  3.884178e-01  1.132335e+04
## Eccentricity     1.282186e+03 -1.743625e-03  1.107340e+01
## ConvexArea       1.662135e+09 -1.194617e+02  1.090014e+07
## Extent          -1.194617e+02  2.858848e-03 -2.538891e+00
## Perimeter        1.090014e+07 -2.538891e+00  7.494690e+04

c) Eigen Value dan Eigen Vector

Perhitungan ini dilakukan untuk memahami komponen utama dari data.

eigen_analysis <- eigen(cor_matrix)
eigen_analysis$values
## [1] 4.832288611 1.453188439 0.628449468 0.056824512 0.021808269 0.006430191
## [7] 0.001010510
eigen_analysis$vectors
##             [,1]        [,2]         [,3]       [,4]        [,5]        [,6]
## [1,] -0.44828422 -0.11609991 -0.005483783  0.1111391 -0.61104765 -0.09983439
## [2,] -0.44323980  0.13658724  0.100547975 -0.4952046  0.08757032 -0.68557712
## [3,] -0.38938118 -0.37492246 -0.236043538  0.6558767  0.38457775 -0.23903320
## [4,] -0.20297098  0.61082321  0.628522057  0.4262986  0.07510412  0.05356014
## [5,] -0.45093833 -0.08761633 -0.036672403 -0.0558117 -0.39241075  0.47120104
## [6,]  0.05636836 -0.66734439  0.731980930 -0.1090526  0.05685884  0.02345199
## [7,] -0.45082374  0.03417227 -0.044300766 -0.3398651  0.55515080  0.48726906
##             [,7]
## [1,]  0.62436686
## [2,] -0.22772863
## [3,] -0.12995283
## [4,] -0.02044403
## [5,] -0.63914127
## [6,]  0.00161639
## [7,]  0.36399975

Kesimpulan

a) Correlation Matrix

Nilai korelasi berada di rentang -1 hingga 1. Misalnya, jika nilai antara Area dan Perimeter mendekati 1, berarti keduanya memiliki hubungan positif yang sangat kuat (jika area luas, maka keliling cenderung besar). Jika nilai mendekati 0, berarti tidak ada hubungan linear antar variabel tersebut.

b) Variance-Covariance Matrix

Elemen diagonal pada matriks ini adalah Varians dari masing-masing variabel, sedangkan elemen lainnya adalah Kovarians. Nilai positif menunjukkan bahwa kedua variabel cenderung meningkat secara bersamaan. Berbeda dengan korelasi, nilai kovarians sulit dibandingkan antar variabel karena dipengaruhi oleh satuan ukuran data.

c) Eigen Value dan Eigen Vector

  1. Eigen Values Menunjukkan besarnya varians yang dapat dijelaskan oleh setiap komponen. Nilai yang lebih besar menunjukkan bahwa komponen tersebut menyimpan informasi yang lebih penting dari dataset. Eigen value pertama (4.83) yang jauh lebih besar dari 1 menunjukkan bahwa sebagian besar informasi dalam dataset ini dapat diringkas dalam satu atau dua komponen utama saja.

  2. Eigen Vectors Menunjukkan arah dari sumbu baru (Principal Components). Setiap vektor merepresentasikan kontribusi setiap variabel asli terhadap komponen utama tersebut.