# Load Library
library(knitr)
Dataset Coffee Chain merupakan data historis operasional perusahaan yang mencatat berbagai indikator keuangan utama guna mengevaluasi efisiensi dan profitabilitas bisnis. Dalam Coffee Chain dataset, variabel Sales merepresentasikan total pendapatan kotor yang dihasilkan dari penjualan produk atau jasa, sementara COGS atau Cost of Goods Sold mencatat seluruh biaya langsung yang timbul dalam proses produksi barang yang dijual. Selain itu, terdapat variabel Marketing yang mencakup biaya promosi dan iklan yang dikeluarkan untuk memperluas jangkauan pasar. Fokus utama dari dataset ini adalah variabel Profit, yang berfungsi sebagai indikator keuntungan bersih setelah mempertimbangkan komponen biaya tersebut.
# Load Data
library(readxl)
library(dplyr)
data = read_excel("C:/Users/lenovo/Downloads/1. Tugas SIM 2025B - Coffee Chain Datasets/coffee_chain.xlsx")
data_baru = data%>%
dplyr :: select(Sales, Profit, COGS, Marketing)
# Tabel Data
library(DT)
datatable(data_baru, options = list(scrollX = TRUE, pageLength = 15), rownames = FALSE)
Statistika deskriptif dari Coffee Chain Dataset dengan Profit sebagai variabel dependen dan Sales, COGS, dan Marketing sebagai variabel independen menunjukkan keragaman data. Variabel Sales memiliki nilai rata-rata sebesar 193, dimana nilai penjualan terendah berada di angka 17, dan tertinggi mencapai 912. Sementara itu rata0rata dari variabel COGS tercatat sebesar 84,43 dengan nilai maksimum sebesar 364. Jika dibandingkan dengan variabel Marketing relatih lebih lebih kecil dengan rata-rata hanya 31,19 dan nilai tertinggi berada di angka 156. Variabel Profit sendiri memiliki rata-rata sebesar 61,1. Namun, variabel tersebut memiliki rentang yang sangat jauh, mulai dari kerugian sebesar -638 (nilai minimumnya) hingga keuntungan maksimalnya sebesar 778.
summary(data_baru)
## Sales Profit COGS Marketing
## Min. : 17 Min. :-638.0 Min. : 0.00 Min. : 0.00
## 1st Qu.:100 1st Qu.: 17.0 1st Qu.: 43.00 1st Qu.: 13.00
## Median :138 Median : 40.0 Median : 60.00 Median : 22.00
## Mean :193 Mean : 61.1 Mean : 84.43 Mean : 31.19
## 3rd Qu.:230 3rd Qu.: 92.0 3rd Qu.:100.00 3rd Qu.: 39.00
## Max. :912 Max. : 778.0 Max. :364.00 Max. :156.00
Dari scatterplot tersebut terlihat bahwa variabel Sales dan Profit memiliki hubungan linear positif. Terlihat pada scatterplot bahwa semakin tinggi nilai Sales, maka Profit akan semakin meningkat. Akan tetapi, pada scatterplot tersebut terlihat masih memiliki outlier.
library(ggplot2)
ggplot(data_baru, aes(x = Sales, y = Profit)) +
geom_point() +
geom_smooth(method = "lm", se = FALSE) +
ggtitle("Hubungan Sales dan Profit")
Dari scatterplot COGS vs Profit terlihat bahwa terdapat pola tren naik, sehingga setiap nilai COGS meningkat maka Profit juga akan naik. Selain itu terlihat juga sebaran data yang sangat besar. Terdapat banyak outlier pada scatterplot tersebut.
ggplot(data_baru, aes(x = COGS, y = Profit)) +
geom_point() +
geom_smooth(method = "lm", se = FALSE) +
ggtitle("Hubungan COGS dan Profit")
Pada scatterplot tersebut menunjukkan adanya hubungan positif. Maka setiap kenaikan Marketing akan diikuti dengan kenaikan Profit meskipun hubungan tersebut tidak terlalu kuat. Selain itu, terdapat beberapa titik yang menyimpang jauh atau outlier baik pada nilai profit yang sangat tinggi maupun yang sangat rendah.
ggplot(data_baru, aes(x = Marketing, y = Profit)) +
geom_point() +
geom_smooth(method = "lm", se = FALSE) +
ggtitle("Hubungan Marketing dan Profit")
Untuk memahami pengaruh dari variabel-variabel tersebut, dilakukan analisis Regresi Linear Berganda. Analisis tersebut bertujuan untuk menguji dan mengukur sejauh mana pengaruh variabel independen yaitu Sales, COGS, dan Marketing, terhadap variabel dependen Profit. Secara matematis, model regresi linear berganda dapat di representasikan melalui persamaan berikut : \[Profit = \beta_0 + \beta_1(Sales) + \beta_2(COGS) + \beta_3(Marketing) + \epsilon\] Dengan analisis regresi linear berganda dapat melakukan identifikasi variabel yang memiliki pengaruh signifikan secara statistik.
# model regresi
model = lm(Profit ~ Sales + COGS + Marketing, data = data_baru)
summary(model)
##
## Call:
## lm(formula = Profit ~ Sales + COGS + Marketing, data = data_baru)
##
## Residuals:
## Min 1Q Median 3Q Max
## -123.137 -11.828 -0.518 9.241 101.270
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -22.801081 0.521941 -43.69 <2e-16 ***
## Sales 1.193813 0.004503 265.12 <2e-16 ***
## COGS -1.195341 0.012388 -96.49 <2e-16 ***
## Marketing -1.461141 0.020260 -72.12 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 20.48 on 4244 degrees of freedom
## Multiple R-squared: 0.9595, Adjusted R-squared: 0.9595
## F-statistic: 3.351e+04 on 3 and 4244 DF, p-value: < 2.2e-16
Dari hasil analisis regresi linear berganda tersebut didapatkan persamaan regresi sebagai berikut : \[Profit = -22,801 + 1,194(Sales) - 1,195(COGS) - 1,461(Marketing)\]
Intrepretasinya adalah sebagai berikut :
a. Konstanta
(Intercept) = -22,801. Artinya jika nilai Sales, COGS, dan
Marketing semuanya adalah 0, maka profit diperkirakan akan bernilai
negatif yaitu sebesar -22,801
b. Sales = 1,194. Artinya setiap
kenaikan 1 satuan Sales, maka profit akan meningkan sebesar 1,194
satuan, dengan asumsi variabel COGS dan Marketing bernilai tetap.
c. COGS = -1,195. Artinya setiap kenaikan 1 kesatuan COGS, maka profit
akan menurun sebesar 1.195 satuan, dengan asumi variabel lainnya
konstan.
d. Marketing = -1,461. Artinya setiap kenaikan 1 satuan
pengeluaran Marketing, maka Profit akan menurun sebesar 1,461 satuan,
dengan asumsi variabel lainnya konstan.
Pada model regresi berganda tersebut diperoleh nilai Adjusted R-squared = 0,9595 (95,95%). Artinya variabel Profit dapat dijelaskan oleh model yang berisi variabel Sales, COGS, dan Marketing. Sisanya sebesar 4,05% dijelaskan oleh variabel atau faktor lain diluar model ini. Model ini dinilai sangat baik dalam memprediksi Profit.
Uji F digunakan untuk melihat apakah semua variabel independen secara bersama-sama mempengaruhi variabel dependen.
\[ \begin{aligned} H_0 &: \beta_1 = \beta_2 = \beta_3 = 0 && \text{(Variabel independen secara bersama-sama tidak mempengaruhi variabel dependen)} \\ H_1 &: \beta_i \neq 0, i = 0, 1, 2, 3 && \text{(Setidaknya ada satu variabel independen yang mempengaruhi variabel dependen)} \end{aligned} \]Dari analisis regresi tersebut didapatkan nilai \(p\text{-value} < \alpha = 0,05\). Maka \(H_0\) ditolak, sehingga setidaknya ada satu variabel independen yang mempengaruhi variabel dependen.
Dari analisis regresi yang sudah dilakukan, pada kolom Pr(>|t|) terlihat bahwa setiap variabel independen memiliki nilai sebesar 2e-16. Maka dapat disimpulkan bahwa masing-masing variabel independen memiliki pengaruh yang sangat signifikan terhadap variabel dependen.
Dilakukan uji normalitas residual menggunakan Kolmogorov-Smirnov yang
disebabkan oleh ukuran data yang besar (<50 data).
\[\begin{aligned}
H_0 &: \text{Data berdistribusi normal} \\
H_1 &: \text{Data tidak berdistribusi normal}
\end{aligned}\]
library(nortest)
residu = residuals(model)
lillie.test(residuals(model))
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: residuals(model)
## D = 0.081331, p-value < 2.2e-16
\(H_0\) ditolak karena \(p\text{-value} < \alpha = 0,05\) maka data tidak berdistribusi normal.
Menggunakan uji Variance Inflation Factor (VIF) yang bertujuan
untuk menguji multikolinearitas pada model regresi, yaitu untuk
memeriksa apakah variabel independen dalam model memiliki korelasi
tinggi satu sama lain.
\[\begin{aligned} VIF < 10 &: \text{Tidak terjadi multikolinearitas} \\ VIF > 10 &: \text{Terjadi multikolinearitas} \end{aligned}\]
library(car)
vif(model)
## Sales COGS Marketing
## 4.691130 7.029865 3.036006
Semua nilai VIF berada dibawah 10. Artinya tidak terjadi gejala multikolinearitas.
Menggunakan uji Breusch-Pagan untuk memeriksa apakah variansi residual konstan.
\[\begin{aligned} H_0 &: \text{Terjadi homoskedastisitas} \\ H_1 &: \text{Terjadi heteroskedastisitas} \end{aligned}\]
library(lmtest)
bptest(model)
##
## studentized Breusch-Pagan test
##
## data: model
## BP = 947.05, df = 3, p-value < 2.2e-16
\(H_0\) ditolak karena \(p\text{-value} < \alpha = 0,05\). Artinya terjadi gejala heteroskedastisitas pada model.
Dilakukan uji Durbin-Watson untuk pengujian autokorelasi. \[\begin{aligned} H_0 &: \text{Tidak terdapat autokorelasi} \\ H_1 &: \text{Terdapat autokorelasi} \end{aligned}\]
dwtest(model)
##
## Durbin-Watson test
##
## data: model
## DW = 1.7035, p-value < 2.2e-16
## alternative hypothesis: true autocorrelation is greater than 0
\(H_0\) ditolak karena \(p\text{-value} < \alpha = 0,05\). Artinya terdapat autokorelasi pada model.
Dari analisis regresi linear berganda untuk melihat pengaruh variabel Sales, Marketing, dan cost of Goods Sold tersebut memiliki nilai \(R^2\) yang tinggi yaitu 95,95% dan semua variabel prediktornya signifikan. Akan tetapi, model regresi tersebut gagal memenuhi 3 dari 4 uji asumsi klasik utama. Hal tersebut mengindikasikan bahwa hasil estimasi koefisisen dan uji signifikansinya tidak efisien, bias, atau menyesatkan.
Untuk perbaikan dari model regresi tersebut, dapat dilakukan transformasi data seperti logaritma atau differencing dan menggunakan model estimasi yang lebih robust.