Industri konfeksioneri global, termasuk produk cokelat, merupakan salah satu segmen ritel yang terus mengalami pertumbuhan. Dalam lingkungan bisnis yang kompetitif, pemahaman terhadap faktor-faktor yang memengaruhi kinerja penjualan menjadi hal yang krusial bagi perusahaan dalam merancang strategi distribusi dan target penjualan yang tepat.
Salah satu pendekatan kuantitatif yang umum digunakan untuk menganalisis hubungan antar variabel bisnis adalah analisis regresi linier sederhana. Metode ini memungkinkan kita untuk mengukur seberapa besar pengaruh suatu variabel terhadap variabel lainnya, serta membuat prediksi berdasarkan pola yang ada dalam data.
Laporan ini menggunakan dataset Chocolate Sales yang memuat 1.094 transaksi penjualan dari 25 tenaga penjual di 6 negara, yaitu Australia, India, Inggris, Amerika Serikat, Kanada, dan Selandia Baru. Variabel yang dianalisis adalah total kotak cokelat yang dikirimkan (Boxes Shipped) sebagai variabel independen dan total nilai penjualan (Amount dalam USD) sebagai variabel dependen, yang diagregasi per tenaga penjual. dataset dapat diakses melalui DATASET
## Sales.Person Amount Boxes.Shipped
## 1 Andria Kimpton 201747 6448
## 2 Barr Faughny 258713 6366
## 3 Beverie Moffet 278922 9214
## 4 Brien Boise 312816 8102
## 5 Camilla Castle 196616 5374
## 6 Ches Bonnell 320901 7522
## 7 Curtice Advani 216461 7074
## 8 Dennison Crosswaite 291669 8767
## 9 Dotty Strutley 190624 6853
## 10 Gigi Bohling 232666 6303
## 11 Gunar Cockshoot 238483 6677
## 12 Husein Augar 205212 5849
## 13 Jan Morforth 219667 7661
## 14 Jehu Rudeforth 220976 7246
## 15 Kaine Padly 266490 7253
## 16 Karlen McCaffrey 223895 9658
## 17 Kelci Walkden 311710 8702
## 18 Madelene Upcott 316099 7279
## 19 Mallorie Waber 200592 5980
## 20 Marney O'Breen 259742 8043
## 21 Oby Sorrel 316645 8608
## 22 Rafaelita Blaksland 210245 4297
## 23 Roddy Speechley 251062 6899
## 24 Van Tuxwell 303149 6799
## 25 Wilone O'Kielt 138523 4033
Note that the echo = FALSE parameter was added to the
code chunk to prevent printing of the R code that generated the
plot.
summary(agg[, c("Amount", "Boxes.Shipped")])
## Amount Boxes.Shipped
## Min. :138523 Min. :4033
## 1st Qu.:210245 1st Qu.:6366
## Median :238483 Median :7074
## Mean :247345 Mean :7080
## 3rd Qu.:291669 3rd Qu.:8043
## Max. :320901 Max. :9658
plot(agg$Boxes.Shipped, agg$Amount,
xlab = "Total Kotak Terkirim",
ylab = "Total Penjualan (USD)",
main = "Scatter Plot: Kotak Terkirim vs Total Penjualan",
pch = 19, col = "steelblue")
Scatter plot menunjukkan pola hubungan positif antara jumlah kotak
terkirim dan total penjualan, artinya tenaga penjual yang mengirimkan
lebih banyak kotak cenderung menghasilkan total penjualan yang lebih
besar, meskipun sebaran titik data cukup bervariasi.
model <- lm(Amount ~ Boxes.Shipped, data = agg)
summary(model)
##
## Call:
## lm(formula = Amount ~ Boxes.Shipped, data = agg)
##
## Residuals:
## Min 1Q Median 3Q Max
## -82528 -30167 381 27197 64200
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 85074.403 40932.895 2.078 0.049018 *
## Boxes.Shipped 22.919 5.678 4.037 0.000514 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 38560 on 23 degrees of freedom
## Multiple R-squared: 0.4147, Adjusted R-squared: 0.3892
## F-statistic: 16.29 on 1 and 23 DF, p-value: 0.0005137
Hasil estimasi model regresi linier sederhana menggunakan fungsi lm() pada R menghasilkan persamaan sebagai berikut:
Ŷ = 85.072 + 22,919 X
Interpretasi koefisien regresi: - Intercept (β̂₀ = 85.072): apabila jumlah total kotak terkirim oleh seorang tenaga penjual adalah nol, maka perkiraan total penjualannya adalah $85.072. Nilai ini tidak memiliki makna karena tidak ada tenaga penjual yang sama sekali tidak mengirimkan kotak. - Slope (β̂₁ = 22,919): setiap penambahan 1 kotak terkirim secara kumulatif oleh seorang tenaga penjual, rata-rata total penjualan meningkat sebesar $22,92 USD.
cat("Nilai t intercept :", summary(model)$coefficients[1, 3], "\n")
## Nilai t intercept : 2.078387
cat("Nilai t slope :", summary(model)$coefficients[2, 3], "\n")
## Nilai t slope : 4.036588
cat("p-value slope :", summary(model)$coefficients[2, 4], "\n")
## p-value slope : 0.0005136656
cat("F-statistic :", summary(model)$fstatistic[1], "\n")
## F-statistic : 16.29404
cat("R-squared :", summary(model)$r.squared, "\n")
## R-squared : 0.4146695
Berdasarkan output summary(model), hasil uji signifikansi parameter adalah sebagai berikut:
Uji t untuk intercept menghasilkan t = 2,078 dan p-value = 0,049, sehingga intercept signifikan pada α = 0,05.
Uji t untuk koefisien slope (Boxes.Shipped) menghasilkan t = 4,037 dan p-value = 0,0005, jauh di bawah α = 0,05. Dengan demikian, H₀ ditolak dan disimpulkan bahwa variabel Total Kotak Terkirim berpengaruh signifikan terhadap Total Penjualan.
Uji F keseluruhan model menghasilkan F = 16,29 dengan p-value = 0,000514, yang berarti model secara keseluruhan signifikan.
Koefisien determinasi R² = 0,4147 menunjukkan bahwa 41,47% variabilitas total penjualan dapat dijelaskan oleh total kotak terkirim, sedangkan 58,53% sisanya dijelaskan oleh faktor lain di luar model.
par(mfrow = c(2, 2))
plot(model)
shapiro.test(model$residuals)
##
## Shapiro-Wilk normality test
##
## data: model$residuals
## W = 0.97517, p-value = 0.776
Uji Normalitas (Shapiro-Wilk): Hasil uji Shapiro-Wilk menghasilkan statistik W = 0,9752 dan p-value = 0,7760. Karena p-value > α = 0,05, H₀ gagal ditolak. Disimpulkan bahwa residual model berdistribusi normal. Hal ini dikonfirmasi pula oleh plot Normal Q-Q yang menunjukkan titik-titik data mendekati garis lurus diagonal.
bptest(model)
##
## studentized Breusch-Pagan test
##
## data: model
## BP = 2.1149, df = 1, p-value = 0.1459
Uji Homoskedastisitas (Breusch-Pagan): Hasil uji Breusch-Pagan menghasilkan statistik BP = 2,1149 dan p-value = 0,1459. Karena p-value > 0,05, H₀ gagal ditolak. Disimpulkan tidak terdapat masalah heteroskedastisitas; ragam residual bersifat homogen. Plot Scale-Location juga menunjukkan penyebaran titik yang relatif merata di sepanjang garis horizontal.
dwtest(model)
##
## Durbin-Watson test
##
## data: model
## DW = 2.4303, p-value = 0.8573
## alternative hypothesis: true autocorrelation is greater than 0
Uji Autokorelasi (Durbin-Watson): Nilai statistik Durbin-Watson = 2,4303. Nilai ini berada di rentang 1,5–2,5 yang mengindikasikan tidak adanya autokorelasi signifikan pada residual. Hal ini sesuai dengan ekspektasi karena data tidak memiliki struktur deret waktu per individu setelah diagregasi. Dengan terpenuhinya ketiga asumsi klasik tersebut, model regresi yang dibangun dinyatakan valid dan dapat digunakan untuk interpretasi serta prediksi.
Berdasarkan hasil analisis regresi linier sederhana yang dilakukan terhadap dataset Chocolate Sales dengan menggunakan software R, dapat ditarik beberapa kesimpulan sebagai berikut:
Pertama, eksplorasi data menunjukkan adanya kecenderungan hubungan positif antara total kotak cokelat yang dikirimkan (Boxes Shipped) dan total nilai penjualan (Amount) per tenaga penjual. Tenaga penjual yang mengirimkan lebih banyak kotak secara agregat cenderung menghasilkan total pendapatan penjualan yang lebih tinggi.
Kedua, model regresi linier sederhana yang terbentuk adalah Ŷ = 85.072 + 22,919X, di mana setiap penambahan satu kotak dalam total pengiriman berkaitan dengan peningkatan penjualan rata-rata sebesar $22,92. Model ini signifikan secara statistik dengan nilai F = 16,29 (p-value = 0,0005) dan koefisien determinasi R² = 0,4147, yang berarti variabel jumlah kotak terkirim mampu menjelaskan sekitar 41,47% variasi total penjualan.
Ketiga, pengujian asumsi klasik menunjukkan bahwa seluruh asumsi regresi linier terpenuhi. Dengan demikian, estimator OLS yang digunakan bersifat BLUE dan model dapat diandalkan untuk inferensi statistik. Meskipun demikian, nilai R² yang sebesar 41,47% mengindikasikan bahwa masih terdapat faktor-faktor lain yang mempengaruhi total penjualan yang tidak tercakup dalam model ini, seperti jenis produk, negara asal tenaga penjual, maupun periode penjualan. Untuk mendapatkan model yang lebih komprehensif, disarankan untuk mempertimbangkan analisis regresi berganda dengan menambahkan variabel-variabel prediktor lain yang relevan.