Dataset yang digunakan berjudul “Wholesale customers” yang dipublikasikan oleh Margarida Cardoso pada 30 Maret 2014 di UC Irvine Machine Learning Repository. Dataset ini dikomersialisasikan di bawah lisensi Creative Commons Attribution 4.0 International (CC BY 4.0). Dataset ini mencakup pengeluaran tahunan dalam satuan moneter unit (MU) dari pelanggan distributor grosir terhadap berbagai kategori produk.
DOI Dataset : 10.24432/C5030X
setwd("D:/OneDrive - Universitas Padjadjaran/SMT 3/ADM/Praktikum/UTS Praktikum")
data = read.csv("Wholesale-customers-data.csv")
head(data,n=10)
## Channel Region Fresh Milk Grocery Frozen Detergents_Paper Delicassen
## 1 1 3 3 2920 6252 440 223 709
## 2 1 2 3 333 7021 15601 15 550
## 3 1 3 9 1534 7417 175 3468 27
## 4 2 1 18 7504 15205 1285 4797 6372
## 5 2 3 23 2616 8118 145 3874 217
## 6 2 3 37 1275 22272 137 6747 110
## 7 2 3 85 20959 45828 36 24231 1423
## 8 1 3 97 3605 12400 98 2970 62
## 9 2 3 117 6264 21203 228 8682 1111
## 10 1 3 140 8847 3823 142 1062 3
Dengan faktornya adalah Channel dan Region.
library(MVN)
## Warning: package 'MVN' was built under R version 4.3.3
library(biotools)
## Warning: package 'biotools' was built under R version 4.3.3
## Loading required package: MASS
## ---
## biotools version 4.2
Hipotesis
H0 : Data berdistribusi normal multivariat
H1 : Data tidak berdistribusi normal multivariat
Taraf Signifikansi
α = 5%
Statistik Uji
Mardia’s Test
Untuk memeriksa data apakah berdistribusi normal multivariat, dapat dilihat dari Q-Q plot antara square distance (d_j^2) dengan nilai quantil dari distribusi Chi-Square ((j-0,5)/n). Jika hasil plot menggambarkan garis lurus maka data tersebut dapat dinyatakan sebagai normal multivariat.
Selain menggunakan Q-Q Plot, normalitas multivariat juga dapat diuji secara statistik menggunakan Mardia’s Test yang dirumuskan sebagai berikut.
# Menentukan variabel
y1 <- data[,3]
y2 <- data[,4]
y3 <- data[,5]
y4 <- data[,6]
y5 <- data[,7]
y6 <- data[,8]
data_fix <- data.frame(y1=y1, y2=y2, y3=y3, y4=y4, y5=y5, y6=y6)
test1 = mvn(data_fix, mvnTest = "mardia", univariateTest = "SW", multivariatePlot = "qq")
Berdasarkan Q-Q Plot diatas, nampak bahwa persebaran titik cenderung membentuk garis melengkung, bukan garis lurus. Sehingga secara eksploratif dapat disimpulkan bahwa data tidak berdistribusi normal multivariat.
Kriteria Uji
Pada mardia’s test menggunakan dua nilai yaitu nilai skewness dan nilai kurtosis, sehingga:
Pada Mardia’s Test Skewness, tolak H0 jika p-value < α
Pada Mardia’s Test Kurtosis, tolak H0 jika p-value < α
test1$multivariateNormality
## Test Statistic p value Result
## 1 Mardia Skewness 16991.2514930974 0 NO
## 2 Mardia Kurtosis 396.394800496193 0 NO
## 3 MVN <NA> <NA> NO
Berdasarkan output diatas, diperoleh nilai p-value Mardia Skewness dan Mardia Kurtosis sebesar 0 < 0,05. Diperoleh keputusan tolak H0, yang artinya data tidak berdistribusi normal multivariat. Sehingga dibutuhkan penanganan untuk memenuhi asumsi tersebut, yaitu dengan melakukan pemotongan dan transformasi data.
Data asli memiliki n sebanyak 440 data yang tidak berdistribusi normal. Agar asumsi normalitas terpenuhi, dilakukan pemotongan data yang mengambil data ke 200-241 dengan n sebanyak 40.
# Potong Data
data_p <- data_fix[200:241,]
y1_p <- data[200:241,3]
y2_p <- data[200:241,4]
y3_p <- data[200:241,5]
y4_p <- data[200:241,6]
y5_p <- data[200:241,7]
y6_p <- data[200:241,8]
test2 = mvn(data_p, mvnTest = "mardia", univariateTest = "SW", multivariatePlot = "qq")
test2$multivariateNormality
## Test Statistic p value Result
## 1 Mardia Skewness 401.536689262213 1.01285176400071e-53 NO
## 2 Mardia Kurtosis 14.4367091784951 0 NO
## 3 MVN <NA> <NA> NO
Hasil menunjukkan bahwa data setelah dipotong masih belum berdistribusi normal multivariat, oleh karena itu dilakukan penanganan kedua dengan cara transformasi log(x).
data_trans <- log(data_p)
y1_t <- log(data[200:241,3])
y2_t <- log(data[200:241,4])
y3_t <- log(data[200:241,5])
y4_t <- log(data[200:241,6])
y5_t <- log(data[200:241,7])
y6_t <- log(data[200:241,8])
test3 = mvn(data_trans, mvnTest = "mardia", univariateTest = "SW", multivariatePlot = "qq")
Berdasarkan Q-Q Plot diatas, nampak bahwa persebaran titik cenderung membentuk garis lurus. Sehingga secara eksploratif dapat disimpulkan bahwa data berdistribusi normal multivariat.
test3$multivariateNormality
## Test Statistic p value Result
## 1 Mardia Skewness 72.4338364375846 0.0688721106847297 YES
## 2 Mardia Kurtosis 1.20071196680588 0.229862950501238 YES
## 3 MVN <NA> <NA> YES
Hasil menunjukkan terima H0 untuk Mardia Skewness dan Mardia Kurotsis. Artinya data sudah berdistribusi normal multivariat. Dengan begitu, asumsi normalitas multivariat terpenuhi.
Data yang sudah dipotong dan ditransformasi inilah yang akan digunakan untuk analisis One Way dan Two Way MANOVA selanjutnya.
Disclaimer : Kelompok 2 (Oporto) pada faktor Region tidak masuk ke dalam data setelah dipotong yang akan digunakan untuk analisis MANOVA. Sehingga hanya akan terdapat pengaruh dari kelompok 1 (Lisbon) dan kelompok 3 (Other).
Pengujian homogenitas menggunakan uji Box’s M. Karena data memiliki 2 faktor yaitu Channel dan Region, maka uji homogenitas dilakukan sebanyak 2 kali.
Hipotesis
H0 : ∑1 = ∑2 = ∑3 = ∑4 = ∑5 = ∑6 (varians data homogen)
H1 : paling sedikit satu diantara sepasang ∑ yang tidak sama (varians data heterogen)
Taraf Signifikansi
α = 5%
Statistik Uji
Uji Box’s M
# Membuat Data Frame
data_homo <- cbind.data.frame(data[200:241,1:2], data_trans)
head(data_homo)
## Channel Region y1 y2 y3 y4 y5 y6
## 200 1 1 8.894396 6.919684 7.631432 7.163172 5.480639 7.481556
## 201 2 3 8.904087 9.460632 9.835369 7.956477 8.972464 6.315358
## 202 1 1 8.904223 6.163315 6.371612 7.013915 4.276666 5.375278
## 203 1 3 8.907612 7.540090 7.684324 6.579251 3.850148 6.285998
## 204 2 3 8.933137 8.508354 9.151227 7.419980 8.108021 7.850104
## 205 2 3 8.934323 7.548029 8.562931 6.033086 7.699842 5.537334
# Channel
head(data_homo[,1])
## [1] 1 2 1 1 2 2
boxM(data = data_trans, grouping = data_homo[,1])
##
## Box's M-test for Homogeneity of Covariance Matrices
##
## data: data_trans
## Chi-Sq (approx.) = 40.287, df = 21, p-value = 0.00686
# Region
head(data_homo[,2])
## [1] 1 3 1 3 3 3
boxM(data = data_trans, grouping = data_homo[,2])
##
## Box's M-test for Homogeneity of Covariance Matrices
##
## data: data_trans
## Chi-Sq (approx.) = 13.071, df = 21, p-value = 0.9061
Kriteria Uji
Tolak H0 jika p-value < α
Diperoleh nilai p-value Channel sebesar 0,00686 < alpha (0,05), maka tolak H0. Artinya dapat disimpulkan bahwa data mengenai pengeluaran tahunan dengan pengelompokkan berdasarkan Channel memiliki matriks kovarians yang berbeda.
Diperoleh nilai p-value Region sebesar 0.9061 > alpha (0,05), maka terima H0. Artinya dapat disimpulkan bahwa data mengenai pengeluaran tahunan dengan pengelompokkan berdasarkan Region memiliki matriks kovarians yang sama.
Meskipun salah satu matriks kovarians tidak homogen, untuk tujuan pembelajaran, homogenitas multivariat diasumsikan terpenuhi.
Asumsi independensi terpenuhi jika pengamatan diperoleh secara acak. Pada kasus ini, pengukuran tersebut sudah dilakukan secara acak.
Menurut Mattjik dan Sumertajaya (dalam Muhajir, 2017), jika ingin dikaji pengaruh dari 1 buah perlakuan terhadap p buah respon secara serempak, dimana p > 1, maka penelitian itu dapat dianalisis dengan MANOVA satu arah. Model umum dari MANOVA satu arah adalah:
dimana:
𝑖 = 1, 2, … ,𝑡; 𝑗 = 1, 2, … , 𝑛𝑖; 𝑘 = 1, 2, … , 𝑝.
𝑌𝑖𝑗𝑘 = nilai pengamatan dari respon ke-k dan ulangan ke-j yang memperoleh perlakuan ke-i
𝜇𝑖𝑘 = nilai rataan umum dari respon ke-k
𝜏𝑖𝑘 = pengaruh dari perlakuan ke-i terhadap respon ke-k
𝜀𝑖𝑗𝑘 = pengaruh galat yang timbul pada respon ke-k dari ulangan ke-j dan perlakuan ke-i
Hipotesis
H0 : μ1 = μ2 = 0 (Faktor Channel tidak berpengaruh terhadap pengeluaran tahunan)
H1 : Terdapat minimal satu μi ≠ 0. i = 1,2 (Faktor Channel berpengaruh terhadap pengeluaran tahunan)
Taraf Signifikansi
α = 5%
Statistik Uji
oneway = manova(cbind(y1_t, y2_t, y3_t, y4_t, y5_t, y6_t)~data_homo$Channel)
summary(oneway)
## Df Pillai approx F num Df den Df Pr(>F)
## data_homo$Channel 1 0.71396 14.56 6 35 2.95e-08 ***
## Residuals 40
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Kriteria Uji
Tolak H0 jika p-value < α
Berdasarkan output diatas, pada tingkat signifikansi 5%, didapatkan kesimpulan bahwa Channel (Horeca atau Retail) secara signifikan mempengaruhi pengeluaran tahunan dari pelanggan distributor grosir.
Uji Lanjut dilakukan dengan menggunakan Post Hoc Test yang bertujuan untuk menentukan pasangan-pasangan kelompok yang memiliki perbedaan signifikan.
Hipotesis
H0 : Faktor (Channel) tidak berpengaruh secara signifikan terhadap vektor (pengeluaran tahunan) yang diamati
H1 : Faktor (Channel) berpengaruh secara signifikan terhadap vektor (pengeluaran tahunan) yang diamati
Taraf Signifikansi
α = 5%
Statistik Uji
Uji Post Hoc
summary.aov(oneway)
## Response y1_t :
## Df Sum Sq Mean Sq F value Pr(>F)
## data_homo$Channel 1 0.005211 0.0052107 0.8174 0.3714
## Residuals 40 0.254985 0.0063746
##
## Response y2_t :
## Df Sum Sq Mean Sq F value Pr(>F)
## data_homo$Channel 1 13.46 13.4605 29.896 2.642e-06 ***
## Residuals 40 18.01 0.4502
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Response y3_t :
## Df Sum Sq Mean Sq F value Pr(>F)
## data_homo$Channel 1 25.639 25.6389 58.687 2.292e-09 ***
## Residuals 40 17.475 0.4369
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Response y4_t :
## Df Sum Sq Mean Sq F value Pr(>F)
## data_homo$Channel 1 1.979 1.9785 1.2616 0.268
## Residuals 40 62.730 1.5682
##
## Response y5_t :
## Df Sum Sq Mean Sq F value Pr(>F)
## data_homo$Channel 1 67.240 67.240 53.135 7.439e-09 ***
## Residuals 40 50.618 1.265
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Response y6_t :
## Df Sum Sq Mean Sq F value Pr(>F)
## data_homo$Channel 1 2.688 2.68804 2.9295 0.09472 .
## Residuals 40 36.703 0.91757
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Kriteria Uji
Tolak H0 jika p-value < α
Keputusan
| Response | P-Value | Keputusan |
|---|---|---|
| 1 (Fresh) | 0.3714 | Terima H0 |
| 2 (Milk) | 2,64e-06 | Tolak H0 |
| 3 (Grocery) | 2,29e-09 | Tolak H0 |
| 4 (Frozen) | 0.268 | Terima H0 |
| 5 (Detergents Paper) | 7,44e-09 | Tolak H0 |
| 6 (Delicatessen) | 0.09472 | Terima H0 |
Kesimpulan
Berdasarkan uji lanjut dengan taraf signifikansi 5%, disimpulkan bahwa:
Customer Channel secara signifikan tidak mempengaruhi pengeluaran tahunan pada Fresh products.
Customer Channel secara signifikan mempengaruhi pengeluaran tahunan pada Milk products.
Customer Channel secara signifikan mempengaruhi pengeluaran tahunan pada Grocery products.
Customer Channel secara signifikan tidak mempengaruhi pengeluaran tahunan pada Frozen products.
Customer Channel secara signifikan mempengaruhi pengeluaran tahunan pada Detergents/Paper products.
Customer Channel secara signifikan tidak mempengaruhi pengeluaran tahunan pada Delicatessen products.
MANOVA terdiri dari dua faktor yang bisa disebut Two Way MANOVA, dibedakan menjadi MANOVA dua arah dengan interaksi dan tanpa interaksi. Menurut Rencher (1998) Model desain dua jalur untuk vector yang terdiri dari p komponen adalah sebagai berikut:
Keterangan:
Xijk : vektor pengamatan pada factor A taraf ke-i, factor B taraf ke-j dan ulangan ke-k
μ : vector rataan umum
αi : vector pengaruh utama factor A taraf ke-i
βj : vector utama factor B taraf ke-j
γij : vector pengaruh interaksi dari factor A taraf ke-i dan factor B taraf ke-j
𝜀ijk : vector pengaruh acak pada factor A taraf ke-i dan factor B taraf ke-j dan ulangan ke-k
Hipotesis
H0’ : α1 = α2 = 0 (Faktor Channel tidak berpengaruh terhadap pengeluaran tahunan Fresh, Milk, Grocery, Frozen, Detergents Paper, dan Delicatessen products)
H1’ : Setidaknya ada satu αi ≠ 0 (Faktor Channel berpengaruh terhadap pengeluaran tahunan Fresh, Milk, Grocery, Frozen, Detergents Paper, dan Delicatessen products)
H0’’ : β1 = β2 = 0 (Faktor Region tidak berpengaruh terhadap pengeluaran tahunan Fresh, Milk, Grocery, Frozen, Detergents Paper, dan Delicatessen products)
H1’’ : Setidaknya ada satu βj ≠ 0 (Faktor Region berpengaruh terhadap pengeluaran tahunan Fresh, Milk, Grocery, Frozen, Detergents Paper, dan Delicatessen products)
H0’’’ : αβij = 0, i = 1,2 j = 1,2, (Interaksi antara Channel dan Region tidak berpengaruh terhadap pengeluaran tahunan Fresh, Milk, Grocery, Frozen, Detergents Paper, dan Delicatessen products)
H1’’’ : Setidaknya ada satu αβij ≠ 0 (Interaksi antara Channel dan Region berpengaruh terhadap pengeluaran tahunan Fresh, Milk, Grocery, Frozen, Detergents Paper, dan Delicatessen products)
Keterangan : β1 = pengaruh Region Lisbon (dilambangkan dengan 1) dan β2 = pengaruh Region Other (dilambangkan dengan 3)
Taraf Signifikansi
α = 5%
Statistik Uji
Channel <- as.factor(data_homo$Channel)
Region <- as.factor(data_homo$Region)
twoway <- manova(cbind(y1_t, y2_t, y3_t, y4_t, y5_t, y6_t) ~ Channel * Region, data = data_homo)
summary(twoway)
## Df Pillai approx F num Df den Df Pr(>F)
## Channel 1 0.71770 13.9831 6 33 7.537e-08 ***
## Region 1 0.11067 0.6845 6 33 0.6634
## Channel:Region 1 0.01631 0.0912 6 33 0.9968
## Residuals 38
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Kriteria Uji
Tolak H0 jika p-value < α
Keputusan
| Response | P-Value | Keputusan |
|---|---|---|
| Channel | 7.537e-08 | Tolak H0’ |
| Region | 0.6634 | Terima H0’’ |
| Channel:Region | 0.9968 | Terima H0’’’ |
Kesimpulan
Berdasarkan output dan taraf signifikansi 5%, dapat disimpulkan bahwa :
Channel berpengaruh signifikan terhadap pengeluaran tahunan Fresh, Milk, Grocery, Frozen, Detergents Paper, dan Delicatessen products
Region tidak berpengaruh signifikan terhadap pengeluaran tahunan Fresh, Milk, Grocery, Frozen, Detergents Paper, dan Delicatessen products
Interaksi antara Channel dan Region tidak berpengaruh signifikan terhadap pengeluaran tahunan Fresh, Milk, Grocery, Frozen, Detergents Paper, dan Delicatessen products
Hipotesis
H0 : Faktor tidak berpengaruh secara signifikan terhadap vektor yang diamati
H1 : Faktor berpengaruh secara signifikan terhadap vektor yang diamati
Taraf Signifikansi
α = 5%
Statistik Uji
Uji Post Hoc
summary.aov(twoway)
## Response y1_t :
## Df Sum Sq Mean Sq F value Pr(>F)
## Channel 1 0.005211 0.0052107 0.7959 0.3779
## Region 1 0.006194 0.0061935 0.9460 0.3369
## Channel:Region 1 0.000009 0.0000093 0.0014 0.9701
## Residuals 38 0.248783 0.0065469
##
## Response y2_t :
## Df Sum Sq Mean Sq F value Pr(>F)
## Channel 1 13.4605 13.4605 29.7714 3.169e-06 ***
## Region 1 0.6149 0.6149 1.3600 0.2508
## Channel:Region 1 0.2142 0.2142 0.4737 0.4955
## Residuals 38 17.1809 0.4521
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Response y3_t :
## Df Sum Sq Mean Sq F value Pr(>F)
## Channel 1 25.6389 25.6389 57.2656 4.255e-09 ***
## Region 1 0.3806 0.3806 0.8501 0.3623
## Channel:Region 1 0.0811 0.0811 0.1812 0.6728
## Residuals 38 17.0133 0.4477
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Response y4_t :
## Df Sum Sq Mean Sq F value Pr(>F)
## Channel 1 1.979 1.97852 1.2159 0.2771
## Region 1 0.867 0.86678 0.5327 0.4700
## Channel:Region 1 0.030 0.03034 0.0186 0.8921
## Residuals 38 61.833 1.62718
##
## Response y5_t :
## Df Sum Sq Mean Sq F value Pr(>F)
## Channel 1 67.240 67.240 50.6155 1.723e-08 ***
## Region 1 0.002 0.002 0.0015 0.9696
## Channel:Region 1 0.135 0.135 0.1017 0.7516
## Residuals 38 50.481 1.328
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Response y6_t :
## Df Sum Sq Mean Sq F value Pr(>F)
## Channel 1 2.688 2.68804 2.8086 0.1020
## Region 1 0.032 0.03214 0.0336 0.8556
## Channel:Region 1 0.302 0.30224 0.3158 0.5774
## Residuals 38 36.369 0.95707
Kriteria Uji
Tolak H0 jika p-value < α
Keputusan
| Response | Kelompok | P-Value | Keputusan |
|---|---|---|---|
| 1 (Fresh) | Channel | 0.3779 | Terima H0 |
| Region | 0.3369 | Terima H0 | |
| Channel*Region | 0.9701 | Terima H0 | |
| 2 (Milk) | Channel | 3.169e-06 | Tolak H0 |
| Region | 0.2508 | Terima H0 | |
| Channel*Region | 0.4955 | Terima H0 | |
| 3 (Grocery) | Channel | 4.255e-09 | Tolak H0 |
| Region | 0.3623 | Terima H0 | |
| Channel*Region | 0.6728 | Terima H0 | |
| 4 (Frozen) | Channel | 0.2771 | Terima H0 |
| Region | 0.4700 | Terima H0 | |
| Channel*Region | 0.8921 | Terima H0 | |
| 5 (Detergents Paper) | Channel | 1.723e-08 | Tolak H0 |
| Region | 0.9696 | Terima H0 | |
| Channel*Region | 0.7516 | Terima H0 | |
| 6 (Delicatessen) | Channel | 0.1020 | Terima H0 |
| Region | 0.8556 | Terima H0 | |
| Channel*Region | 0.5774 | Terima H0 |
Kesimpulan
Berdasarkan uji lanjut dengan taraf signifikansi 5%, disimpulkan bahwa:
Customer Channel tidak mempengaruhi pengeluaran tahunan Fresh products secara signifikan.
Customer Channel mempengaruhi pengeluaran tahunan Milk products secara signifikan.
Customer Channel mempengaruhi pengeluaran tahunan Grocery products secara signifikan.
Customer Channel tidak mempengaruhi pengeluaran tahunan Frozen products secara signifikan.
Customer Channel mempengaruhi pengeluaran tahunan Detergents/Paper products secara signifikan.
Customer Channel tidak mempengaruhi pengeluaran tahunan Delicatessen products secara signifikan.
Customer Region tidak mempengaruhi pengeluaran tahunan Fresh products secara signifikan.
Customer Region tidak mempengaruhi pengeluaran tahunan Milk products secara signifikan.
Customer Region tidak mempengaruhi pengeluaran tahunan Grocery products secara signifikan.
Customer Region tidak mempengaruhi pengeluaran tahunan Frozen products secara signifikan.
Customer Region tidak mempengaruhi pengeluaran tahunan Detergents/Paper products secara signifikan.
Customer Region tidak mempengaruhi pengeluaran tahunan Delicatessen products secara signifikan.
Interaksi antara customer Channel dan Region tidak mempengaruhi pengeluaran tahunan Fresh products secara signifikan.
Interaksi antara customer Channel dan Region tidak mempengaruhi pengeluaran tahunan Milk products secara signifikan.
Interaksi antara customer Channel dan Region tidak mempengaruhi pengeluaran tahunan Grocery products secara signifikan.
Interaksi antara customer Channel dan Region tidak mempengaruhi pengeluaran tahunan Frozen products secara signifikan.
Interaksi antara customer Channel dan Region tidak mempengaruhi pengeluaran tahunan Detergents Paper products secara signifikan.
Interaksi antara customer Channel dan Region tidak mempengaruhi pengeluaran tahunan Delicatessen products secara signifikan.