Dataset Raisin berasal dari UCI Machine Learning Repository dan berisi data morfologi biji kismis hasil ekstraksi citra digital. Variabel numerik pada dataset ini dianalisis menggunakan pendekatan analisis multivariat untuk mengetahui hubungan antar variabel serta struktur variasi data.
Tujuan analisis ini adalah:
Langkah awal adalah mengimpor data dan memastikan hanya kolom numerik yang digunakan untuk analisis matriks.
data_raisin <- read_excel("Raisin_Dataset.xlsx")
data_numeric <- data_raisin[, sapply(data_raisin, is.numeric)]
kable(head(data_numeric), caption = "Enam Baris Pertama Data Numerik Dataset Raisin")
| Area | MajorAxisLength | MinorAxisLength | Eccentricity | ConvexArea | Extent | Perimeter |
|---|---|---|---|---|---|---|
| 87524 | 442.2460 | 253.2912 | 0.8197384 | 90546 | 0.7586506 | 1184.040 |
| 75166 | 406.6907 | 243.0324 | 0.8018052 | 78789 | 0.6841296 | 1121.786 |
| 90856 | 442.2670 | 266.3283 | 0.7983536 | 93717 | 0.6376128 | 1208.575 |
| 45928 | 286.5406 | 208.7600 | 0.6849892 | 47336 | 0.6995994 | 844.162 |
| 79408 | 352.1908 | 290.8275 | 0.5640113 | 81463 | 0.7927719 | 1073.251 |
| 49242 | 318.1254 | 200.1221 | 0.7773513 | 51368 | 0.6584564 | 881.836 |
Matriks korelasi digunakan untuk mengukur kekuatan dan arah hubungan linear antara dua variabel.
cor_matrix <- cor(data_numeric)
cor_matrix
## Area MajorAxisLength MinorAxisLength Eccentricity
## Area 1.00000000 0.9327744 0.9066499 0.3361066
## MajorAxisLength 0.93277443 1.0000000 0.7280302 0.5836084
## MinorAxisLength 0.90664987 0.7280302 1.0000000 -0.0276835
## Eccentricity 0.33610660 0.5836084 -0.0276835 1.0000000
## ConvexArea 0.99591967 0.9450309 0.8956513 0.3482103
## Extent -0.01349934 -0.2038656 0.1453215 -0.3610615
## Perimeter 0.96135172 0.9779780 0.8274170 0.4478452
## ConvexArea Extent Perimeter
## Area 0.99591967 -0.01349934 0.9613517
## MajorAxisLength 0.94503093 -0.20386556 0.9779780
## MinorAxisLength 0.89565132 0.14532153 0.8274170
## Eccentricity 0.34821030 -0.36106149 0.4478452
## ConvexArea 1.00000000 -0.05480247 0.9766122
## Extent -0.05480247 1.00000000 -0.1734489
## Perimeter 0.97661223 -0.17344893 1.0000000
Matriks ini menunjukkan bagaimana variansi satu variabel berkaitan dengan variansi variabel lainnya dalam skala aslinya.
cov_matrix <- cov(data_numeric)
cov_matrix
## Area MajorAxisLength MinorAxisLength Eccentricity
## Area 1.521165e+09 4.221378e+06 1.767671e+06 1.183972e+03
## MajorAxisLength 4.221378e+06 1.346415e+04 4.222916e+03 6.116279e+00
## MinorAxisLength 1.767671e+06 4.222916e+03 2.498890e+03 -1.249887e-01
## Eccentricity 1.183972e+03 6.116279e+00 -1.249887e-01 8.157415e-03
## ConvexArea 1.583600e+09 4.470629e+06 1.825348e+06 1.282186e+03
## Extent -2.815116e+01 -1.264820e+00 3.884178e-01 -1.743625e-03
## Perimeter 1.026472e+07 3.106672e+04 1.132335e+04 1.107340e+01
## ConvexArea Extent Perimeter
## Area 1.583600e+09 -2.815116e+01 1.026472e+07
## MajorAxisLength 4.470629e+06 -1.264820e+00 3.106672e+04
## MinorAxisLength 1.825348e+06 3.884178e-01 1.132335e+04
## Eccentricity 1.282186e+03 -1.743625e-03 1.107340e+01
## ConvexArea 1.662135e+09 -1.194617e+02 1.090014e+07
## Extent -1.194617e+02 2.858848e-03 -2.538891e+00
## Perimeter 1.090014e+07 -2.538891e+00 7.494690e+04
Perhitungan ini dilakukan untuk memahami komponen utama dari data.
eigen_analysis <- eigen(cor_matrix)
eigen_analysis$values
## [1] 4.832288611 1.453188439 0.628449468 0.056824512 0.021808269 0.006430191
## [7] 0.001010510
eigen_analysis$vectors
## [,1] [,2] [,3] [,4] [,5] [,6]
## [1,] -0.44828422 -0.11609991 -0.005483783 0.1111391 -0.61104765 -0.09983439
## [2,] -0.44323980 0.13658724 0.100547975 -0.4952046 0.08757032 -0.68557712
## [3,] -0.38938118 -0.37492246 -0.236043538 0.6558767 0.38457775 -0.23903320
## [4,] -0.20297098 0.61082321 0.628522057 0.4262986 0.07510412 0.05356014
## [5,] -0.45093833 -0.08761633 -0.036672403 -0.0558117 -0.39241075 0.47120104
## [6,] 0.05636836 -0.66734439 0.731980930 -0.1090526 0.05685884 0.02345199
## [7,] -0.45082374 0.03417227 -0.044300766 -0.3398651 0.55515080 0.48726906
## [,7]
## [1,] 0.62436686
## [2,] -0.22772863
## [3,] -0.12995283
## [4,] -0.02044403
## [5,] -0.63914127
## [6,] 0.00161639
## [7,] 0.36399975
a) Correlation Matrix
Nilai korelasi berada di rentang -1 hingga 1. Misalnya, jika nilai antara Area dan Perimeter mendekati 1, berarti keduanya memiliki hubungan positif yang sangat kuat (jika area luas, maka keliling cenderung besar). Jika nilai mendekati 0, berarti tidak ada hubungan linear antar variabel tersebut.
b) Variance-Covariance Matrix
Elemen diagonal pada matriks ini adalah Varians dari masing-masing variabel, sedangkan elemen lainnya adalah Kovarians. Nilai positif menunjukkan bahwa kedua variabel cenderung meningkat secara bersamaan. Berbeda dengan korelasi, nilai kovarians sulit dibandingkan antar variabel karena dipengaruhi oleh satuan ukuran data.
c) Eigen Value dan Eigen Vector
Eigen Values Menunjukkan besarnya varians yang dapat dijelaskan oleh setiap komponen. Nilai yang lebih besar menunjukkan bahwa komponen tersebut menyimpan informasi yang lebih penting dari dataset. Eigen value pertama (4.83) yang jauh lebih besar dari 1 menunjukkan bahwa sebagian besar informasi dalam dataset ini dapat diringkas dalam satu atau dua komponen utama saja.
Eigen Vectors Menunjukkan arah dari sumbu baru (Principal Components). Setiap vektor merepresentasikan kontribusi setiap variabel asli terhadap komponen utama tersebut.