#Import Data
wholesale_customers_data <- read.csv("Wholesale customers data.csv")
head(wholesale_customers_data)
##   Channel Region Fresh Milk Grocery Frozen Detergents_Paper Delicassen
## 1       2      3 12669 9656    7561    214             2674       1338
## 2       2      3  7057 9810    9568   1762             3293       1776
## 3       2      3  6353 8808    7684   2405             3516       7844
## 4       1      3 13265 1196    4221   6404              507       1788
## 5       2      3 22615 5410    7198   3915             1777       5185
## 6       2      3  9413 8259    5126    666             1795       1451
#Data Numerik
data_num <- wholesale_customers_data[, c("Fresh","Milk","Grocery","Frozen","Detergents_Paper","Delicassen")]
head(data_num)
##   Fresh Milk Grocery Frozen Detergents_Paper Delicassen
## 1 12669 9656    7561    214             2674       1338
## 2  7057 9810    9568   1762             3293       1776
## 3  6353 8808    7684   2405             3516       7844
## 4 13265 1196    4221   6404              507       1788
## 5 22615 5410    7198   3915             1777       5185
## 6  9413 8259    5126    666             1795       1451
#(a) Correlation Matrix
cor_matrix <- cor(data_num)
round(cor_matrix, 3)
##                   Fresh  Milk Grocery Frozen Detergents_Paper Delicassen
## Fresh             1.000 0.101  -0.012  0.346           -0.102      0.245
## Milk              0.101 1.000   0.728  0.124            0.662      0.406
## Grocery          -0.012 0.728   1.000 -0.040            0.925      0.205
## Frozen            0.346 0.124  -0.040  1.000           -0.132      0.391
## Detergents_Paper -0.102 0.662   0.925 -0.132            1.000      0.069
## Delicassen        0.245 0.406   0.205  0.391            0.069      1.000
#(b) Variance-Covariance Matrix
cov_matrix <- cov(data_num)
round(cov_matrix, 3)
##                      Fresh     Milk  Grocery   Frozen Detergents_Paper
## Fresh            159954927  9381789 -1424713 21236655       -6147825.7
## Milk               9381789 54469967 51083186  4442612       23288343.5
## Grocery           -1424713 51083186 90310104 -1854282       41895189.7
## Frozen            21236655  4442612 -1854282 23567853       -3044324.9
## Detergents_Paper  -6147826 23288343 41895190 -3044325       22732436.0
## Delicassen         8727310  8457925  5507291  5352342         931680.7
##                  Delicassen
## Fresh             8727310.0
## Milk              8457924.8
## Grocery           5507291.3
## Frozen            5352341.8
## Detergents_Paper   931680.7
## Delicassen        7952997.5
#(c) Eigen Value dan Eigen Vector
eigen_result <- eigen(cov_matrix)

round(eigen_result$values, 3)
## [1] 164995904 145452098  25139978  15803901   5392764   2203641
round(eigen_result$vectors, 3)
##        [,1]   [,2]   [,3]   [,4]   [,5]   [,6]
## [1,]  0.977  0.111  0.179  0.042 -0.016 -0.016
## [2,]  0.121 -0.516 -0.510  0.646 -0.203  0.033
## [3,]  0.062 -0.765  0.276 -0.375  0.160  0.411
## [4,]  0.152  0.019 -0.714 -0.646 -0.220 -0.013
## [5,] -0.007 -0.365  0.204 -0.149 -0.208 -0.871
## [6,]  0.068 -0.057 -0.283  0.020  0.917 -0.265

#(d) Penjelasan Output Dari hasil Correlation Matrix, saya bisa melihat hubungan antar variabel pembelian pelanggan. Nilai korelasi yang mendekati 1 berarti hubungan antar variabel tersebut kuat, sedangkan nilai mendekati 0 berarti hubungannya lemah. Pada hasil yang saya dapatkan, korelasi paling besar ada pada variabel Grocery dan Detergents_Paper yaitu sebesar 0.925, artinya pelanggan yang banyak membeli Grocery biasanya juga banyak membeli Detergents_Paper. Selain itu, variabel Milk juga memiliki hubungan yang cukup kuat dengan Grocery (0.728) dan dengan Detergents_Paper (0.662), sehingga bisa disimpulkan bahwa pembelian susu biasanya sejalan dengan pembelian grocery dan detergen. Sedangkan variabel Fresh memiliki hubungan yang sangat kecil dengan Grocery (-0.012), jadi pembelian Fresh tidak terlalu berhubungan dengan Grocery. Hubungan Fresh dengan Frozen sebesar 0.346 menunjukkan bahwa ada sedikit keterkaitan, tetapi tidak terlalu kuat.

Variance-Covariance Matrix, saya bisa mengetahui seberapa besar penyebaran data dari setiap variabel dan hubungan antar variabel dalam skala asli. Nilai yang berada di diagonal menunjukkan variance, artinya seberapa besar variasi pembelian pada variabel tersebut. Dari hasil yang saya lihat, beberapa variabel seperti Grocery dan Detergents_Paper memiliki nilai variance yang besar, artinya pembelian pada variabel tersebut sangat berbeda-beda antar pelanggan. Sedangkan nilai di luar diagonal menunjukkan covariance, yaitu hubungan perubahan antara dua variabel. Jika covariance bernilai positif dan besar, berarti dua variabel tersebut cenderung naik bersama. Contohnya Grocery dan Detergents_Paper memiliki covariance besar, yang sesuai dengan hasil korelasi bahwa keduanya memang saling berkaitan.

Eigen Value dan Eigen Vector, saya bisa mengetahui komponen utama mana yang paling besar pengaruhnya dalam data. Eigen value terbesar menunjukkan komponen yang menjelaskan variasi data paling besar. Pada hasil saya, eigen value terbesar ada pada komponen pertama yaitu 164995904, artinya komponen pertama adalah yang paling dominan dalam menjelaskan variasi data pelanggan. Sedangkan eigen value lainnya lebih kecil, berarti pengaruhnya tidak sebesar komponen pertama. Untuk eigen vector, nilainya menunjukkan variabel mana yang paling berperan dalam komponen tersebut. Pada komponen pertama, nilai terbesar ada pada variabel Fresh (0.977) sehingga bisa disimpulkan bahwa variabel Fresh paling berpengaruh dalam komponen utama pertama. Sedangkan pada komponen kedua, nilai besar terlihat pada variabel Grocery, Milk, dan Detergents_Paper, sehingga komponen kedua lebih dipengaruhi oleh pola pembelian ketiga variabel tersebut.