Dataset Ajwa dan Medjool merupakan dataset yang digunakan untuk mengklasifikasikan dua jenis kurma organik dari Arab Saudi. Dataset ini berisi beberapa fitur fisik seperti panjang buah, diameter buah, berat buah, panjang biji, serta kandungan kalori. Tujuan analisis ini adalah untuk mengetahui hubungan antar variabel menggunakan correlation matrix, variance-covariance matrix, serta analisis eigen.
data <- read.csv2("AjwaOrMejdool.csv")
data$Calories..Kcal. <- as.numeric(data$Calories..Kcal.)
data$Pit.Length..cm. <- as.numeric(data$Pit.Length..cm.)
data$Date.Diameter..cm. <- as.numeric(data$Date.Diameter..cm.)
data$Date.Length..cm. <- as.numeric(data$Date.Length..cm.)
data_numeric <- data[, sapply(data, is.numeric)]
data_numeric
## Date.Length..cm. Date.Diameter..cm. Date.Weight..g. Pit.Length..cm.
## 1 3.2 2.0 12 2.2
## 2 3.5 1.8 11 1.9
## 3 3.0 1.7 9 2.0
## 4 3.1 2.0 10 1.9
## 5 2.8 1.8 9 1.9
## 6 3.1 1.9 12 2.2
## 7 3.2 2.2 13 1.9
## 8 3.1 1.7 12 2.1
## 9 3.6 2.5 9 2.7
## 10 3.8 1.8 10 1.9
## 11 4.4 2.0 14 2.9
## 12 5.0 1.4 15 2.5
## 13 5.0 1.7 15 2.1
## 14 5.2 1.4 17 2.6
## 15 5.0 2.0 17 2.0
## 16 4.2 1.6 14 2.3
## 17 5.1 2.1 16 2.7
## 18 4.2 1.8 16 2.3
## 19 4.6 1.7 13 2.7
## 20 5.0 2.4 19 2.8
## Calories..Kcal.
## 1 41.28
## 2 37.84
## 3 30.96
## 4 34.40
## 5 30.96
## 6 41.28
## 7 44.72
## 8 41.28
## 9 30.96
## 10 34.40
## 11 44.24
## 12 47.40
## 13 47.40
## 14 53.72
## 15 53.72
## 16 44.24
## 17 50.56
## 18 50.56
## 19 41.08
## 20 60.04
cor_matrix <- cor(data_numeric)
cor_matrix
## Date.Length..cm. Date.Diameter..cm. Date.Weight..g.
## Date.Length..cm. 1.0000000 -0.154486605 0.84000936
## Date.Diameter..cm. -0.1544866 1.000000000 -0.04474655
## Date.Weight..g. 0.8400094 -0.044746555 1.00000000
## Pit.Length..cm. 0.6055983 0.185245092 0.49147954
## Calories..Kcal. 0.7842460 -0.007508119 0.99259322
## Pit.Length..cm. Calories..Kcal.
## Date.Length..cm. 0.6055983 0.784246036
## Date.Diameter..cm. 0.1852451 -0.007508119
## Date.Weight..g. 0.4914795 0.992593220
## Pit.Length..cm. 1.0000000 0.441245734
## Calories..Kcal. 0.4412457 1.000000000
Correlation matrix menunjukkan hubungan antar variabel numerik. Hasil menunjukkan bahwa berat kurma memiliki hubungan sangat kuat dengan kandungan kalori. Selain itu, panjang kurma juga memiliki hubungan positif terhadap berat dan kalori, sedangkan diameter menunjukkan hubungan yang relatif lebih lemah terhadap variabel lainnya.
cov_matrix <- cov(data_numeric)
cov_matrix
## Date.Length..cm. Date.Diameter..cm. Date.Weight..g.
## Date.Length..cm. 0.72892105 -0.03776316 2.13605263
## Date.Diameter..cm. -0.03776316 0.08197368 -0.03815789
## Date.Weight..g. 2.13605263 -0.03815789 8.87105263
## Pit.Length..cm. 0.17957895 0.01842105 0.50842105
## Calories..Kcal. 5.54098947 -0.01778947 24.46547368
## Pit.Length..cm. Calories..Kcal.
## Date.Length..cm. 0.17957895 5.54098947
## Date.Diameter..cm. 0.01842105 -0.01778947
## Date.Weight..g. 0.50842105 24.46547368
## Pit.Length..cm. 0.12063158 1.26825263
## Calories..Kcal. 1.26825263 68.48405895
Variance-covariance matrix menunjukkan variasi data serta hubungan perubahan antar variabel. Variabel kalori memiliki variasi terbesar dibandingkan variabel lainnya. Kovarian positif antara berat dan kalori menunjukkan bahwa peningkatan berat kurma diikuti oleh peningkatan kandungan kalori.
eigen_result <- eigen(cov_matrix)
eigen_result
## eigen() decomposition
## $values
## [1] 77.72132186 0.38961316 0.10460410 0.04614707 0.02495171
##
## $vectors
## [,1] [,2] [,3] [,4] [,5]
## [1,] 0.0769089737 0.8098925 -0.07134208 0.47587185 -0.3265201
## [2,] -0.0004133983 -0.1240036 0.75061959 0.55474971 0.3368174
## [3,] 0.3360215174 0.4422197 -0.06769810 -0.28240806 0.7792265
## [4,] 0.0177182954 0.2831890 0.65312362 -0.61690177 -0.3351892
## [5,] 0.9385416564 -0.2300934 0.01808437 0.07400433 -0.2457497
Eigen value menunjukkan besarnya variasi data yang dijelaskan oleh setiap komponen utama. Komponen pertama memiliki eigen value terbesar sehingga menjelaskan sebagian besar variasi data. Eigen vector menunjukkan kontribusi masing-masing variabel terhadap komponen utama, dimana variabel kalori menjadi faktor dominan dalam variasi data.
Berdasarkan analisis yang dilakukan, variabel ukuran fisik kurma memiliki hubungan positif terhadap kandungan kalori. Berat dan panjang kurma merupakan variabel yang paling berpengaruh terhadap variasi data. Analisis eigen menunjukkan bahwa sebagian besar informasi dataset dapat dijelaskan oleh satu komponen utama yang didominasi oleh variabel kalori.