Latar Belakang

Industri konfeksioneri global, termasuk produk cokelat, merupakan salah satu segmen ritel yang terus mengalami pertumbuhan. Dalam lingkungan bisnis yang kompetitif, pemahaman terhadap faktor-faktor yang memengaruhi kinerja penjualan menjadi hal yang krusial bagi perusahaan dalam merancang strategi distribusi dan target penjualan yang tepat.

Salah satu pendekatan kuantitatif yang umum digunakan untuk menganalisis hubungan antar variabel bisnis adalah analisis regresi linier sederhana. Metode ini memungkinkan kita untuk mengukur seberapa besar pengaruh suatu variabel terhadap variabel lainnya, serta membuat prediksi berdasarkan pola yang ada dalam data.

Data

Laporan ini menggunakan dataset Chocolate Sales yang memuat 1.094 transaksi penjualan dari 25 tenaga penjual di 6 negara, yaitu Australia, India, Inggris, Amerika Serikat, Kanada, dan Selandia Baru. Variabel yang dianalisis adalah total kotak cokelat yang dikirimkan (Boxes Shipped) sebagai variabel independen dan total nilai penjualan (Amount dalam USD) sebagai variabel dependen, yang diagregasi per tenaga penjual. dataset dapat diakses melalui DATASET

##           Sales.Person Amount Boxes.Shipped
## 1       Andria Kimpton 201747          6448
## 2         Barr Faughny 258713          6366
## 3       Beverie Moffet 278922          9214
## 4          Brien Boise 312816          8102
## 5       Camilla Castle 196616          5374
## 6         Ches Bonnell 320901          7522
## 7       Curtice Advani 216461          7074
## 8  Dennison Crosswaite 291669          8767
## 9       Dotty Strutley 190624          6853
## 10        Gigi Bohling 232666          6303
## 11     Gunar Cockshoot 238483          6677
## 12        Husein Augar 205212          5849
## 13        Jan Morforth 219667          7661
## 14      Jehu Rudeforth 220976          7246
## 15         Kaine Padly 266490          7253
## 16    Karlen McCaffrey 223895          9658
## 17       Kelci Walkden 311710          8702
## 18     Madelene Upcott 316099          7279
## 19      Mallorie Waber 200592          5980
## 20      Marney O'Breen 259742          8043
## 21          Oby Sorrel 316645          8608
## 22 Rafaelita Blaksland 210245          4297
## 23     Roddy Speechley 251062          6899
## 24         Van Tuxwell 303149          6799
## 25      Wilone O'Kielt 138523          4033

Note that the echo = FALSE parameter was added to the code chunk to prevent printing of the R code that generated the plot.

Analisis Data Eksploratori

Summary Statistik

summary(agg[, c("Amount", "Boxes.Shipped")])

##      Amount       Boxes.Shipped 
##  Min.   :138523   Min.   :4033  
##  1st Qu.:210245   1st Qu.:6366  
##  Median :238483   Median :7074  
##  Mean   :247345   Mean   :7080  
##  3rd Qu.:291669   3rd Qu.:8043  
##  Max.   :320901   Max.   :9658

Scatter Plot

plot(agg$Boxes.Shipped, agg$Amount,
     xlab = "Total Kotak Terkirim",
     ylab = "Total Penjualan (USD)",
     main = "Scatter Plot: Kotak Terkirim vs Total Penjualan",
     pch = 19, col = "steelblue")

Scatter plot menunjukkan pola hubungan positif antara jumlah kotak terkirim dan total penjualan, artinya tenaga penjual yang mengirimkan lebih banyak kotak cenderung menghasilkan total penjualan yang lebih besar, meskipun sebaran titik data cukup bervariasi.

Model Regresi Linear

model <- lm(Amount ~ Boxes.Shipped, data = agg)
summary(model)

## 
## Call:
## lm(formula = Amount ~ Boxes.Shipped, data = agg)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -82528 -30167    381  27197  64200 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   85074.403  40932.895   2.078 0.049018 *  
## Boxes.Shipped    22.919      5.678   4.037 0.000514 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 38560 on 23 degrees of freedom
## Multiple R-squared:  0.4147, Adjusted R-squared:  0.3892 
## F-statistic: 16.29 on 1 and 23 DF,  p-value: 0.0005137

Hasil estimasi model regresi linier sederhana menggunakan fungsi lm() pada R menghasilkan persamaan sebagai berikut:

Ŷ = 85.072 + 22,919 X

Interpretasi koefisien regresi: - Intercept (β̂₀ = 85.072): apabila jumlah total kotak terkirim oleh seorang tenaga penjual adalah nol, maka perkiraan total penjualannya adalah $85.072. Nilai ini tidak memiliki makna karena tidak ada tenaga penjual yang sama sekali tidak mengirimkan kotak. - Slope (β̂₁ = 22,919): setiap penambahan 1 kotak terkirim secara kumulatif oleh seorang tenaga penjual, rata-rata total penjualan meningkat sebesar $22,92 USD.

Uji Signifikansi

cat("Nilai t intercept :", summary(model)$coefficients[1, 3], "\n")

## Nilai t intercept : 2.078387

cat("Nilai t slope     :", summary(model)$coefficients[2, 3], "\n")

## Nilai t slope     : 4.036588

cat("p-value slope     :", summary(model)$coefficients[2, 4], "\n")

## p-value slope     : 0.0005136656

cat("F-statistic       :", summary(model)$fstatistic[1], "\n")

## F-statistic       : 16.29404

cat("R-squared         :", summary(model)$r.squared, "\n")

## R-squared         : 0.4146695

Berdasarkan output summary(model), hasil uji signifikansi parameter adalah sebagai berikut:

Uji t untuk intercept menghasilkan t = 2,078 dan p-value = 0,049, sehingga intercept signifikan pada α = 0,05.
Uji t untuk koefisien slope (Boxes.Shipped) menghasilkan t = 4,037 dan p-value = 0,0005, jauh di bawah α = 0,05. Dengan demikian, H₀ ditolak dan disimpulkan bahwa variabel Total Kotak Terkirim berpengaruh signifikan terhadap Total Penjualan.
Uji F keseluruhan model menghasilkan F = 16,29 dengan p-value = 0,000514, yang berarti model secara keseluruhan signifikan.
Koefisien determinasi R² = 0,4147 menunjukkan bahwa 41,47% variabilitas total penjualan dapat dijelaskan oleh total kotak terkirim, sedangkan 58,53% sisanya dijelaskan oleh faktor lain di luar model.

Uji Asumsi

Pemeriksaan Sisaan

par(mfrow = c(2, 2))
plot(model)

Normalitas Galat

shapiro.test(model$residuals)

## 
##  Shapiro-Wilk normality test
## 
## data:  model$residuals
## W = 0.97517, p-value = 0.776

Uji Normalitas (Shapiro-Wilk): Hasil uji Shapiro-Wilk menghasilkan statistik W = 0,9752 dan p-value = 0,7760. Karena p-value > α = 0,05, H₀ gagal ditolak. Disimpulkan bahwa residual model berdistribusi normal. Hal ini dikonfirmasi pula oleh plot Normal Q-Q yang menunjukkan titik-titik data mendekati garis lurus diagonal.

Homoskedastisitas

bptest(model)

## 
##  studentized Breusch-Pagan test
## 
## data:  model
## BP = 2.1149, df = 1, p-value = 0.1459

Uji Homoskedastisitas (Breusch-Pagan): Hasil uji Breusch-Pagan menghasilkan statistik BP = 2,1149 dan p-value = 0,1459. Karena p-value > 0,05, H₀ gagal ditolak. Disimpulkan tidak terdapat masalah heteroskedastisitas; ragam residual bersifat homogen. Plot Scale-Location juga menunjukkan penyebaran titik yang relatif merata di sepanjang garis horizontal.

Uji Non Autokorelasi

dwtest(model)

## 
##  Durbin-Watson test
## 
## data:  model
## DW = 2.4303, p-value = 0.8573
## alternative hypothesis: true autocorrelation is greater than 0

Uji Autokorelasi (Durbin-Watson): Nilai statistik Durbin-Watson = 2,4303. Nilai ini berada di rentang 1,5–2,5 yang mengindikasikan tidak adanya autokorelasi signifikan pada residual. Hal ini sesuai dengan ekspektasi karena data tidak memiliki struktur deret waktu per individu setelah diagregasi. Dengan terpenuhinya ketiga asumsi klasik tersebut, model regresi yang dibangun dinyatakan valid dan dapat digunakan untuk interpretasi serta prediksi.

Kesimpulan

Berdasarkan hasil analisis regresi linier sederhana yang dilakukan terhadap dataset Chocolate Sales dengan menggunakan software R, dapat ditarik beberapa kesimpulan sebagai berikut:

Pertama, eksplorasi data menunjukkan adanya kecenderungan hubungan positif antara total kotak cokelat yang dikirimkan (Boxes Shipped) dan total nilai penjualan (Amount) per tenaga penjual. Tenaga penjual yang mengirimkan lebih banyak kotak secara agregat cenderung menghasilkan total pendapatan penjualan yang lebih tinggi.
Kedua, model regresi linier sederhana yang terbentuk adalah Ŷ = 85.072 + 22,919X, di mana setiap penambahan satu kotak dalam total pengiriman berkaitan dengan peningkatan penjualan rata-rata sebesar $22,92. Model ini signifikan secara statistik dengan nilai F = 16,29 (p-value = 0,0005) dan koefisien determinasi R² = 0,4147, yang berarti variabel jumlah kotak terkirim mampu menjelaskan sekitar 41,47% variasi total penjualan.
Ketiga, pengujian asumsi klasik menunjukkan bahwa seluruh asumsi regresi linier terpenuhi. Dengan demikian, estimator OLS yang digunakan bersifat BLUE dan model dapat diandalkan untuk inferensi statistik. Meskipun demikian, nilai R² yang sebesar 41,47% mengindikasikan bahwa masih terdapat faktor-faktor lain yang mempengaruhi total penjualan yang tidak tercakup dalam model ini, seperti jenis produk, negara asal tenaga penjual, maupun periode penjualan. Untuk mendapatkan model yang lebih komprehensif, disarankan untuk mempertimbangkan analisis regresi berganda dengan menambahkan variabel-variabel prediktor lain yang relevan.

Eksploratori Data dan Model Linear Sederhana dari Penjualan Coklat

Fazza Rakhsan Satria

2026-05-28