PENDAHULUAN

Dataset Raisin yang bersumber dari UCI Machine Learning Repository berisi data morfologi biji kismis hasil ekstraksi citra digital, di mana setiap baris merepresentasikan satu sampel kismis dan setiap kolom menunjukkan ciri fisik seperti Area, MajorAxisLength, MinorAxisLength, Eccentricity, ConvexArea, Extent, dan Perimeter, serta Class sebagai label jenis kismis. Karena variabel numerik dalam dataset ini saling berkaitan, analisis dilakukan menggunakan pendekatan analisis multivariat untuk memahami hubungan antar variabel dan struktur variasi data.

Tujuan analisis ini adalah:

  1. Membentuk matriks korelasi,
  2. Matriks varians kovarians,
  3. Menghitung eigen value dan eigen vector,
  4. Menginterpretasikan hasil yang diperoleh untuk mengetahui pola utama karakteristik fisik biji kismis.

Import Dataset

Langkah awal yaitu mengimpor dataset untuk memastikan hanya variabel numerik yang dianalisis karena korelasi, kovarians, dan eigen hanya berlaku untuk data numerik.

library(readxl)
library(knitr)

# Membaca dataset Raisin
raisin_df <- read_excel("Raisin_Dataset.xlsx")

# Mengambil hanya variabel numerik
raisin_num <- raisin_df[, sapply(raisin_df, is.numeric)]

# Menampilkan sebagian data numerik
kable(head(raisin_num), caption = "Cuplikan Enam Baris Awal Variabel Numerik Dataset Raisin")
Cuplikan Enam Baris Awal Variabel Numerik Dataset Raisin
Area MajorAxisLength MinorAxisLength Eccentricity ConvexArea Extent Perimeter
87524 442.2460 253.2912 0.8197384 90546 0.7586506 1184.040
75166 406.6907 243.0324 0.8018052 78789 0.6841296 1121.786
90856 442.2670 266.3283 0.7983536 93717 0.6376128 1208.575
45928 286.5406 208.7600 0.6849892 47336 0.6995994 844.162
79408 352.1908 290.8275 0.5640113 81463 0.7927719 1073.251
49242 318.1254 200.1221 0.7773513 51368 0.6584564 881.836

a) Correlation Matrix

Tujuan korelasi matriks untuk mengukur kekuatan dan arah hubungan linier antar variabel morfologi kismis.

mat_korelasi <- cor(raisin_num)
mat_korelasi
##                        Area MajorAxisLength MinorAxisLength Eccentricity
## Area             1.00000000       0.9327744       0.9066499    0.3361066
## MajorAxisLength  0.93277443       1.0000000       0.7280302    0.5836084
## MinorAxisLength  0.90664987       0.7280302       1.0000000   -0.0276835
## Eccentricity     0.33610660       0.5836084      -0.0276835    1.0000000
## ConvexArea       0.99591967       0.9450309       0.8956513    0.3482103
## Extent          -0.01349934      -0.2038656       0.1453215   -0.3610615
## Perimeter        0.96135172       0.9779780       0.8274170    0.4478452
##                  ConvexArea      Extent  Perimeter
## Area             0.99591967 -0.01349934  0.9613517
## MajorAxisLength  0.94503093 -0.20386556  0.9779780
## MinorAxisLength  0.89565132  0.14532153  0.8274170
## Eccentricity     0.34821030 -0.36106149  0.4478452
## ConvexArea       1.00000000 -0.05480247  0.9766122
## Extent          -0.05480247  1.00000000 -0.1734489
## Perimeter        0.97661223 -0.17344893  1.0000000

b) Variance-Covariance Matrix

tujuan matriks ini untuk melihat penyebaran masing-masing variabel dan hubungan perubahan antar variabel dalam skala asli.

mat_kovarians <- cov(raisin_num)
mat_kovarians
##                          Area MajorAxisLength MinorAxisLength  Eccentricity
## Area             1.521165e+09    4.221378e+06    1.767671e+06  1.183972e+03
## MajorAxisLength  4.221378e+06    1.346415e+04    4.222916e+03  6.116279e+00
## MinorAxisLength  1.767671e+06    4.222916e+03    2.498890e+03 -1.249887e-01
## Eccentricity     1.183972e+03    6.116279e+00   -1.249887e-01  8.157415e-03
## ConvexArea       1.583600e+09    4.470629e+06    1.825348e+06  1.282186e+03
## Extent          -2.815116e+01   -1.264820e+00    3.884178e-01 -1.743625e-03
## Perimeter        1.026472e+07    3.106672e+04    1.132335e+04  1.107340e+01
##                    ConvexArea        Extent     Perimeter
## Area             1.583600e+09 -2.815116e+01  1.026472e+07
## MajorAxisLength  4.470629e+06 -1.264820e+00  3.106672e+04
## MinorAxisLength  1.825348e+06  3.884178e-01  1.132335e+04
## Eccentricity     1.282186e+03 -1.743625e-03  1.107340e+01
## ConvexArea       1.662135e+09 -1.194617e+02  1.090014e+07
## Extent          -1.194617e+02  2.858848e-03 -2.538891e+00
## Perimeter        1.090014e+07 -2.538891e+00  7.494690e+04

c) Eigen Value dan Eigen Vector

Perhitungan ini dilakukan untuk mengetahui struktur utama variasi data.

# Dekomposisi eigen dari matriks korelasi
eig_res <- eigen(mat_korelasi)

# Menampilkan eigen value
eig_res$values
## [1] 4.832288611 1.453188439 0.628449468 0.056824512 0.021808269 0.006430191
## [7] 0.001010510
# Menampilkan eigen vector
eig_res$vectors
##             [,1]        [,2]         [,3]       [,4]        [,5]        [,6]
## [1,] -0.44828422 -0.11609991 -0.005483783  0.1111391 -0.61104765 -0.09983439
## [2,] -0.44323980  0.13658724  0.100547975 -0.4952046  0.08757032 -0.68557712
## [3,] -0.38938118 -0.37492246 -0.236043538  0.6558767  0.38457775 -0.23903320
## [4,] -0.20297098  0.61082321  0.628522057  0.4262986  0.07510412  0.05356014
## [5,] -0.45093833 -0.08761633 -0.036672403 -0.0558117 -0.39241075  0.47120104
## [6,]  0.05636836 -0.66734439  0.731980930 -0.1090526  0.05685884  0.02345199
## [7,] -0.45082374  0.03417227 -0.044300766 -0.3398651  0.55515080  0.48726906
##             [,7]
## [1,]  0.62436686
## [2,] -0.22772863
## [3,] -0.12995283
## [4,] -0.02044403
## [5,] -0.63914127
## [6,]  0.00161639
## [7,]  0.36399975
# Menghitung proporsi varians
proporsi_varians <- eig_res$values / sum(eig_res$values) * 100
round(proporsi_varians, 2)
## [1] 69.03 20.76  8.98  0.81  0.31  0.09  0.01

Kesimpulan

a) Correlation Matrix Hasil korelasi menunjukkan variabel yang merepresentasikan ukuran objek (seperti Area, Perimeter, MajorAxisLength, dan ConvexArea) memiliki hubungan positif yang sangat kuat. Ini mengindikasikan bahwa perubahan pada satu ukuran cenderung diikuti oleh perubahan ukuran lain. Sebaliknya, Extent dan Eccentricity memiliki hubungan yang relatif lebih lemah dengan variabel ukuran, sehingga memberikan informasi tambahan terkait bentuk, bukan hanya besar objek.

b) Variance–Covariance Matrix Matriks kovarians memperlihatkan bahwa variabel-variabel berukuran besar cenderung memiliki kovarians positif satu sama lain, menandakan pola perubahan yang searah. Namun, karena kovarians dipengaruhi oleh satuan skala, interpretasi hubungan antar variabel menjadi kurang intuitif dibandingkan korelasi, sehingga matriks ini lebih tepat digunakan sebagai dasar analisis lanjutan seperti PCA.

c) Eigen Value dan Eigen Vector Nilai eigen terbesar menunjukkan bahwa sebagian besar variasi data dapat dirangkum oleh satu atau dua komponen utama. Hal ini berarti dimensi data asli dapat direduksi tanpa kehilangan banyak informasi penting. Eigen vector menunjukkan bahwa kontribusi terbesar terhadap komponen utama berasal dari variabel-variabel ukuran, sehingga karakteristik ukuran objek merupakan faktor dominan dalam struktur data.