Pendahuluan

Dataset Ajwa dan Medjool merupakan dataset yang digunakan untuk mengklasifikasikan dua jenis kurma organik dari Arab Saudi. Dataset ini berisi beberapa fitur fisik seperti panjang buah, diameter buah, berat buah, panjang biji, serta kandungan kalori. Tujuan analisis ini adalah untuk mengetahui hubungan antar variabel menggunakan correlation matrix, variance-covariance matrix, serta analisis eigen.

Import Data

data <- read.csv2("AjwaOrMejdool.csv")

Data Preparation

data$Calories..Kcal. <- as.numeric(data$Calories..Kcal.)
data$Pit.Length..cm. <- as.numeric(data$Pit.Length..cm.)
data$Date.Diameter..cm. <- as.numeric(data$Date.Diameter..cm.)
data$Date.Length..cm. <- as.numeric(data$Date.Length..cm.)

data_numeric <- data[, sapply(data, is.numeric)]
data_numeric
##    Date.Length..cm. Date.Diameter..cm. Date.Weight..g. Pit.Length..cm.
## 1               3.2                2.0              12             2.2
## 2               3.5                1.8              11             1.9
## 3               3.0                1.7               9             2.0
## 4               3.1                2.0              10             1.9
## 5               2.8                1.8               9             1.9
## 6               3.1                1.9              12             2.2
## 7               3.2                2.2              13             1.9
## 8               3.1                1.7              12             2.1
## 9               3.6                2.5               9             2.7
## 10              3.8                1.8              10             1.9
## 11              4.4                2.0              14             2.9
## 12              5.0                1.4              15             2.5
## 13              5.0                1.7              15             2.1
## 14              5.2                1.4              17             2.6
## 15              5.0                2.0              17             2.0
## 16              4.2                1.6              14             2.3
## 17              5.1                2.1              16             2.7
## 18              4.2                1.8              16             2.3
## 19              4.6                1.7              13             2.7
## 20              5.0                2.4              19             2.8
##    Calories..Kcal.
## 1            41.28
## 2            37.84
## 3            30.96
## 4            34.40
## 5            30.96
## 6            41.28
## 7            44.72
## 8            41.28
## 9            30.96
## 10           34.40
## 11           44.24
## 12           47.40
## 13           47.40
## 14           53.72
## 15           53.72
## 16           44.24
## 17           50.56
## 18           50.56
## 19           41.08
## 20           60.04

Correlation Matrix

cor_matrix <- cor(data_numeric)
cor_matrix
##                    Date.Length..cm. Date.Diameter..cm. Date.Weight..g.
## Date.Length..cm.          1.0000000       -0.154486605      0.84000936
## Date.Diameter..cm.       -0.1544866        1.000000000     -0.04474655
## Date.Weight..g.           0.8400094       -0.044746555      1.00000000
## Pit.Length..cm.           0.6055983        0.185245092      0.49147954
## Calories..Kcal.           0.7842460       -0.007508119      0.99259322
##                    Pit.Length..cm. Calories..Kcal.
## Date.Length..cm.         0.6055983     0.784246036
## Date.Diameter..cm.       0.1852451    -0.007508119
## Date.Weight..g.          0.4914795     0.992593220
## Pit.Length..cm.          1.0000000     0.441245734
## Calories..Kcal.          0.4412457     1.000000000

Interpretasi

Correlation matrix menunjukkan hubungan antar variabel numerik. Hasil menunjukkan bahwa berat kurma memiliki hubungan sangat kuat dengan kandungan kalori. Selain itu, panjang kurma juga memiliki hubungan positif terhadap berat dan kalori, sedangkan diameter menunjukkan hubungan yang relatif lebih lemah terhadap variabel lainnya.

Variance-Covariance Matrix

cov_matrix <- cov(data_numeric)
cov_matrix
##                    Date.Length..cm. Date.Diameter..cm. Date.Weight..g.
## Date.Length..cm.         0.72892105        -0.03776316      2.13605263
## Date.Diameter..cm.      -0.03776316         0.08197368     -0.03815789
## Date.Weight..g.          2.13605263        -0.03815789      8.87105263
## Pit.Length..cm.          0.17957895         0.01842105      0.50842105
## Calories..Kcal.          5.54098947        -0.01778947     24.46547368
##                    Pit.Length..cm. Calories..Kcal.
## Date.Length..cm.        0.17957895      5.54098947
## Date.Diameter..cm.      0.01842105     -0.01778947
## Date.Weight..g.         0.50842105     24.46547368
## Pit.Length..cm.         0.12063158      1.26825263
## Calories..Kcal.         1.26825263     68.48405895

Interpretasi

Variance-covariance matrix menunjukkan variasi data serta hubungan perubahan antar variabel. Variabel kalori memiliki variasi terbesar dibandingkan variabel lainnya. Kovarian positif antara berat dan kalori menunjukkan bahwa peningkatan berat kurma diikuti oleh peningkatan kandungan kalori.

Eigen Value dan Eigen Vector

eigen_result <- eigen(cov_matrix)
eigen_result
## eigen() decomposition
## $values
## [1] 77.72132186  0.38961316  0.10460410  0.04614707  0.02495171
## 
## $vectors
##               [,1]       [,2]        [,3]        [,4]       [,5]
## [1,]  0.0769089737  0.8098925 -0.07134208  0.47587185 -0.3265201
## [2,] -0.0004133983 -0.1240036  0.75061959  0.55474971  0.3368174
## [3,]  0.3360215174  0.4422197 -0.06769810 -0.28240806  0.7792265
## [4,]  0.0177182954  0.2831890  0.65312362 -0.61690177 -0.3351892
## [5,]  0.9385416564 -0.2300934  0.01808437  0.07400433 -0.2457497

Interpretasi

Eigen value menunjukkan besarnya variasi data yang dijelaskan oleh setiap komponen utama. Komponen pertama memiliki eigen value terbesar sehingga menjelaskan sebagian besar variasi data. Eigen vector menunjukkan kontribusi masing-masing variabel terhadap komponen utama, dimana variabel kalori menjadi faktor dominan dalam variasi data.

Kesimpulan

Berdasarkan analisis yang dilakukan, variabel ukuran fisik kurma memiliki hubungan positif terhadap kandungan kalori. Berat dan panjang kurma merupakan variabel yang paling berpengaruh terhadap variasi data. Analisis eigen menunjukkan bahwa sebagian besar informasi dataset dapat dijelaskan oleh satu komponen utama yang didominasi oleh variabel kalori.