Dataset Raisin yang bersumber dari UCI Machine Learning Repository berisi data morfologi biji kismis hasil ekstraksi citra digital, di mana setiap baris merepresentasikan satu sampel kismis dan setiap kolom menunjukkan ciri fisik seperti Area, MajorAxisLength, MinorAxisLength, Eccentricity, ConvexArea, Extent, dan Perimeter, serta Class sebagai label jenis kismis. Karena variabel numerik dalam dataset ini saling berkaitan, analisis dilakukan menggunakan pendekatan analisis multivariat untuk memahami hubungan antar variabel dan struktur variasi data.
Tujuan analisis ini adalah:
Langkah awal yaitu mengimpor dataset untuk memastikan hanya variabel numerik yang dianalisis karena korelasi, kovarians, dan eigen hanya berlaku untuk data numerik.
library(readxl)
library(knitr)
# Membaca dataset Raisin
raisin_df <- read_excel("Raisin_Dataset.xlsx")
# Mengambil hanya variabel numerik
raisin_num <- raisin_df[, sapply(raisin_df, is.numeric)]
# Menampilkan sebagian data numerik
kable(head(raisin_num), caption = "Cuplikan Enam Baris Awal Variabel Numerik Dataset Raisin")
| Area | MajorAxisLength | MinorAxisLength | Eccentricity | ConvexArea | Extent | Perimeter |
|---|---|---|---|---|---|---|
| 87524 | 442.2460 | 253.2912 | 0.8197384 | 90546 | 0.7586506 | 1184.040 |
| 75166 | 406.6907 | 243.0324 | 0.8018052 | 78789 | 0.6841296 | 1121.786 |
| 90856 | 442.2670 | 266.3283 | 0.7983536 | 93717 | 0.6376128 | 1208.575 |
| 45928 | 286.5406 | 208.7600 | 0.6849892 | 47336 | 0.6995994 | 844.162 |
| 79408 | 352.1908 | 290.8275 | 0.5640113 | 81463 | 0.7927719 | 1073.251 |
| 49242 | 318.1254 | 200.1221 | 0.7773513 | 51368 | 0.6584564 | 881.836 |
Tujuan korelasi matriks untuk mengukur kekuatan dan arah hubungan linier antar variabel morfologi kismis.
mat_korelasi <- cor(raisin_num)
mat_korelasi
## Area MajorAxisLength MinorAxisLength Eccentricity
## Area 1.00000000 0.9327744 0.9066499 0.3361066
## MajorAxisLength 0.93277443 1.0000000 0.7280302 0.5836084
## MinorAxisLength 0.90664987 0.7280302 1.0000000 -0.0276835
## Eccentricity 0.33610660 0.5836084 -0.0276835 1.0000000
## ConvexArea 0.99591967 0.9450309 0.8956513 0.3482103
## Extent -0.01349934 -0.2038656 0.1453215 -0.3610615
## Perimeter 0.96135172 0.9779780 0.8274170 0.4478452
## ConvexArea Extent Perimeter
## Area 0.99591967 -0.01349934 0.9613517
## MajorAxisLength 0.94503093 -0.20386556 0.9779780
## MinorAxisLength 0.89565132 0.14532153 0.8274170
## Eccentricity 0.34821030 -0.36106149 0.4478452
## ConvexArea 1.00000000 -0.05480247 0.9766122
## Extent -0.05480247 1.00000000 -0.1734489
## Perimeter 0.97661223 -0.17344893 1.0000000
tujuan matriks ini untuk melihat penyebaran masing-masing variabel dan hubungan perubahan antar variabel dalam skala asli.
mat_kovarians <- cov(raisin_num)
mat_kovarians
## Area MajorAxisLength MinorAxisLength Eccentricity
## Area 1.521165e+09 4.221378e+06 1.767671e+06 1.183972e+03
## MajorAxisLength 4.221378e+06 1.346415e+04 4.222916e+03 6.116279e+00
## MinorAxisLength 1.767671e+06 4.222916e+03 2.498890e+03 -1.249887e-01
## Eccentricity 1.183972e+03 6.116279e+00 -1.249887e-01 8.157415e-03
## ConvexArea 1.583600e+09 4.470629e+06 1.825348e+06 1.282186e+03
## Extent -2.815116e+01 -1.264820e+00 3.884178e-01 -1.743625e-03
## Perimeter 1.026472e+07 3.106672e+04 1.132335e+04 1.107340e+01
## ConvexArea Extent Perimeter
## Area 1.583600e+09 -2.815116e+01 1.026472e+07
## MajorAxisLength 4.470629e+06 -1.264820e+00 3.106672e+04
## MinorAxisLength 1.825348e+06 3.884178e-01 1.132335e+04
## Eccentricity 1.282186e+03 -1.743625e-03 1.107340e+01
## ConvexArea 1.662135e+09 -1.194617e+02 1.090014e+07
## Extent -1.194617e+02 2.858848e-03 -2.538891e+00
## Perimeter 1.090014e+07 -2.538891e+00 7.494690e+04
Perhitungan ini dilakukan untuk mengetahui struktur utama variasi data.
# Dekomposisi eigen dari matriks korelasi
eig_res <- eigen(mat_korelasi)
# Menampilkan eigen value
eig_res$values
## [1] 4.832288611 1.453188439 0.628449468 0.056824512 0.021808269 0.006430191
## [7] 0.001010510
# Menampilkan eigen vector
eig_res$vectors
## [,1] [,2] [,3] [,4] [,5] [,6]
## [1,] -0.44828422 -0.11609991 -0.005483783 0.1111391 -0.61104765 -0.09983439
## [2,] -0.44323980 0.13658724 0.100547975 -0.4952046 0.08757032 -0.68557712
## [3,] -0.38938118 -0.37492246 -0.236043538 0.6558767 0.38457775 -0.23903320
## [4,] -0.20297098 0.61082321 0.628522057 0.4262986 0.07510412 0.05356014
## [5,] -0.45093833 -0.08761633 -0.036672403 -0.0558117 -0.39241075 0.47120104
## [6,] 0.05636836 -0.66734439 0.731980930 -0.1090526 0.05685884 0.02345199
## [7,] -0.45082374 0.03417227 -0.044300766 -0.3398651 0.55515080 0.48726906
## [,7]
## [1,] 0.62436686
## [2,] -0.22772863
## [3,] -0.12995283
## [4,] -0.02044403
## [5,] -0.63914127
## [6,] 0.00161639
## [7,] 0.36399975
# Menghitung proporsi varians
proporsi_varians <- eig_res$values / sum(eig_res$values) * 100
round(proporsi_varians, 2)
## [1] 69.03 20.76 8.98 0.81 0.31 0.09 0.01
a) Correlation Matrix Hasil korelasi menunjukkan variabel yang merepresentasikan ukuran objek (seperti Area, Perimeter, MajorAxisLength, dan ConvexArea) memiliki hubungan positif yang sangat kuat. Ini mengindikasikan bahwa perubahan pada satu ukuran cenderung diikuti oleh perubahan ukuran lain. Sebaliknya, Extent dan Eccentricity memiliki hubungan yang relatif lebih lemah dengan variabel ukuran, sehingga memberikan informasi tambahan terkait bentuk, bukan hanya besar objek.
b) Variance–Covariance Matrix Matriks kovarians memperlihatkan bahwa variabel-variabel berukuran besar cenderung memiliki kovarians positif satu sama lain, menandakan pola perubahan yang searah. Namun, karena kovarians dipengaruhi oleh satuan skala, interpretasi hubungan antar variabel menjadi kurang intuitif dibandingkan korelasi, sehingga matriks ini lebih tepat digunakan sebagai dasar analisis lanjutan seperti PCA.
c) Eigen Value dan Eigen Vector Nilai eigen terbesar menunjukkan bahwa sebagian besar variasi data dapat dirangkum oleh satu atau dua komponen utama. Hal ini berarti dimensi data asli dapat direduksi tanpa kehilangan banyak informasi penting. Eigen vector menunjukkan bahwa kontribusi terbesar terhadap komponen utama berasal dari variabel-variabel ukuran, sehingga karakteristik ukuran objek merupakan faktor dominan dalam struktur data.