#Import Data
wholesale_customers_data <- read.csv("Wholesale customers data.csv")
head(wholesale_customers_data)
## Channel Region Fresh Milk Grocery Frozen Detergents_Paper Delicassen
## 1 2 3 12669 9656 7561 214 2674 1338
## 2 2 3 7057 9810 9568 1762 3293 1776
## 3 2 3 6353 8808 7684 2405 3516 7844
## 4 1 3 13265 1196 4221 6404 507 1788
## 5 2 3 22615 5410 7198 3915 1777 5185
## 6 2 3 9413 8259 5126 666 1795 1451
#Data Numerik
data_num <- wholesale_customers_data[, c("Fresh","Milk","Grocery","Frozen","Detergents_Paper","Delicassen")]
head(data_num)
## Fresh Milk Grocery Frozen Detergents_Paper Delicassen
## 1 12669 9656 7561 214 2674 1338
## 2 7057 9810 9568 1762 3293 1776
## 3 6353 8808 7684 2405 3516 7844
## 4 13265 1196 4221 6404 507 1788
## 5 22615 5410 7198 3915 1777 5185
## 6 9413 8259 5126 666 1795 1451
#(a) Correlation Matrix
cor_matrix <- cor(data_num)
round(cor_matrix, 3)
## Fresh Milk Grocery Frozen Detergents_Paper Delicassen
## Fresh 1.000 0.101 -0.012 0.346 -0.102 0.245
## Milk 0.101 1.000 0.728 0.124 0.662 0.406
## Grocery -0.012 0.728 1.000 -0.040 0.925 0.205
## Frozen 0.346 0.124 -0.040 1.000 -0.132 0.391
## Detergents_Paper -0.102 0.662 0.925 -0.132 1.000 0.069
## Delicassen 0.245 0.406 0.205 0.391 0.069 1.000
#(b) Variance-Covariance Matrix
cov_matrix <- cov(data_num)
round(cov_matrix, 3)
## Fresh Milk Grocery Frozen Detergents_Paper
## Fresh 159954927 9381789 -1424713 21236655 -6147825.7
## Milk 9381789 54469967 51083186 4442612 23288343.5
## Grocery -1424713 51083186 90310104 -1854282 41895189.7
## Frozen 21236655 4442612 -1854282 23567853 -3044324.9
## Detergents_Paper -6147826 23288343 41895190 -3044325 22732436.0
## Delicassen 8727310 8457925 5507291 5352342 931680.7
## Delicassen
## Fresh 8727310.0
## Milk 8457924.8
## Grocery 5507291.3
## Frozen 5352341.8
## Detergents_Paper 931680.7
## Delicassen 7952997.5
#(c) Eigen Value dan Eigen Vector
eigen_result <- eigen(cov_matrix)
round(eigen_result$values, 3)
## [1] 164995904 145452098 25139978 15803901 5392764 2203641
round(eigen_result$vectors, 3)
## [,1] [,2] [,3] [,4] [,5] [,6]
## [1,] 0.977 0.111 0.179 0.042 -0.016 -0.016
## [2,] 0.121 -0.516 -0.510 0.646 -0.203 0.033
## [3,] 0.062 -0.765 0.276 -0.375 0.160 0.411
## [4,] 0.152 0.019 -0.714 -0.646 -0.220 -0.013
## [5,] -0.007 -0.365 0.204 -0.149 -0.208 -0.871
## [6,] 0.068 -0.057 -0.283 0.020 0.917 -0.265
#(d) Penjelasan Output Dari hasil Correlation Matrix, saya bisa melihat hubungan antar variabel pembelian pelanggan. Nilai korelasi yang mendekati 1 berarti hubungan antar variabel tersebut kuat, sedangkan nilai mendekati 0 berarti hubungannya lemah. Pada hasil yang saya dapatkan, korelasi paling besar ada pada variabel Grocery dan Detergents_Paper yaitu sebesar 0.925, artinya pelanggan yang banyak membeli Grocery biasanya juga banyak membeli Detergents_Paper. Selain itu, variabel Milk juga memiliki hubungan yang cukup kuat dengan Grocery (0.728) dan dengan Detergents_Paper (0.662), sehingga bisa disimpulkan bahwa pembelian susu biasanya sejalan dengan pembelian grocery dan detergen. Sedangkan variabel Fresh memiliki hubungan yang sangat kecil dengan Grocery (-0.012), jadi pembelian Fresh tidak terlalu berhubungan dengan Grocery. Hubungan Fresh dengan Frozen sebesar 0.346 menunjukkan bahwa ada sedikit keterkaitan, tetapi tidak terlalu kuat.
Variance-Covariance Matrix, saya bisa mengetahui seberapa besar penyebaran data dari setiap variabel dan hubungan antar variabel dalam skala asli. Nilai yang berada di diagonal menunjukkan variance, artinya seberapa besar variasi pembelian pada variabel tersebut. Dari hasil yang saya lihat, beberapa variabel seperti Grocery dan Detergents_Paper memiliki nilai variance yang besar, artinya pembelian pada variabel tersebut sangat berbeda-beda antar pelanggan. Sedangkan nilai di luar diagonal menunjukkan covariance, yaitu hubungan perubahan antara dua variabel. Jika covariance bernilai positif dan besar, berarti dua variabel tersebut cenderung naik bersama. Contohnya Grocery dan Detergents_Paper memiliki covariance besar, yang sesuai dengan hasil korelasi bahwa keduanya memang saling berkaitan.
Eigen Value dan Eigen Vector, saya bisa mengetahui komponen utama mana yang paling besar pengaruhnya dalam data. Eigen value terbesar menunjukkan komponen yang menjelaskan variasi data paling besar. Pada hasil saya, eigen value terbesar ada pada komponen pertama yaitu 164995904, artinya komponen pertama adalah yang paling dominan dalam menjelaskan variasi data pelanggan. Sedangkan eigen value lainnya lebih kecil, berarti pengaruhnya tidak sebesar komponen pertama. Untuk eigen vector, nilainya menunjukkan variabel mana yang paling berperan dalam komponen tersebut. Pada komponen pertama, nilai terbesar ada pada variabel Fresh (0.977) sehingga bisa disimpulkan bahwa variabel Fresh paling berpengaruh dalam komponen utama pertama. Sedangkan pada komponen kedua, nilai besar terlihat pada variabel Grocery, Milk, dan Detergents_Paper, sehingga komponen kedua lebih dipengaruhi oleh pola pembelian ketiga variabel tersebut.