# Load Library
library(knitr)

Deksripsi Data

Dataset Coffee Chain merupakan data historis operasional perusahaan yang mencatat berbagai indikator keuangan utama guna mengevaluasi efisiensi dan profitabilitas bisnis. Dalam Coffee Chain dataset, variabel Sales merepresentasikan total pendapatan kotor yang dihasilkan dari penjualan produk atau jasa, sementara COGS atau Cost of Goods Sold mencatat seluruh biaya langsung yang timbul dalam proses produksi barang yang dijual. Selain itu, terdapat variabel Marketing yang mencakup biaya promosi dan iklan yang dikeluarkan untuk memperluas jangkauan pasar. Fokus utama dari dataset ini adalah variabel Profit, yang berfungsi sebagai indikator keuntungan bersih setelah mempertimbangkan komponen biaya tersebut.

# Load Data
library(readxl)
library(dplyr)
data = read_excel("C:/Users/lenovo/Downloads/1. Tugas SIM 2025B - Coffee Chain Datasets/coffee_chain.xlsx")
data_baru = data%>%
  dplyr :: select(Sales, Profit, COGS, Marketing)

# Tabel Data
library(DT)
datatable(data_baru, options = list(scrollX = TRUE, pageLength = 15), rownames = FALSE)

Statistika Deskriptif

Statistika deskriptif dari Coffee Chain Dataset dengan Profit sebagai variabel dependen dan Sales, COGS, dan Marketing sebagai variabel independen menunjukkan keragaman data. Variabel Sales memiliki nilai rata-rata sebesar 193, dimana nilai penjualan terendah berada di angka 17, dan tertinggi mencapai 912. Sementara itu rata0rata dari variabel COGS tercatat sebesar 84,43 dengan nilai maksimum sebesar 364. Jika dibandingkan dengan variabel Marketing relatih lebih lebih kecil dengan rata-rata hanya 31,19 dan nilai tertinggi berada di angka 156. Variabel Profit sendiri memiliki rata-rata sebesar 61,1. Namun, variabel tersebut memiliki rentang yang sangat jauh, mulai dari kerugian sebesar -638 (nilai minimumnya) hingga keuntungan maksimalnya sebesar 778.

summary(data_baru)
##      Sales         Profit            COGS          Marketing     
##  Min.   : 17   Min.   :-638.0   Min.   :  0.00   Min.   :  0.00  
##  1st Qu.:100   1st Qu.:  17.0   1st Qu.: 43.00   1st Qu.: 13.00  
##  Median :138   Median :  40.0   Median : 60.00   Median : 22.00  
##  Mean   :193   Mean   :  61.1   Mean   : 84.43   Mean   : 31.19  
##  3rd Qu.:230   3rd Qu.:  92.0   3rd Qu.:100.00   3rd Qu.: 39.00  
##  Max.   :912   Max.   : 778.0   Max.   :364.00   Max.   :156.00

Visualisasi Scatterplot

1. Scatterplot Sales vs Profit

Dari scatterplot tersebut terlihat bahwa variabel Sales dan Profit memiliki hubungan linear positif. Terlihat pada scatterplot bahwa semakin tinggi nilai Sales, maka Profit akan semakin meningkat. Akan tetapi, pada scatterplot tersebut terlihat masih memiliki outlier.

library(ggplot2)
ggplot(data_baru, aes(x = Sales, y = Profit)) +
  geom_point() +
  geom_smooth(method = "lm", se = FALSE) +
  ggtitle("Hubungan Sales dan Profit")

2. Scatterplot COGS vs Profit

Dari scatterplot COGS vs Profit terlihat bahwa terdapat pola tren naik, sehingga setiap nilai COGS meningkat maka Profit juga akan naik. Selain itu terlihat juga sebaran data yang sangat besar. Terdapat banyak outlier pada scatterplot tersebut.

ggplot(data_baru, aes(x = COGS, y = Profit)) +
  geom_point() +
  geom_smooth(method = "lm", se = FALSE) +
  ggtitle("Hubungan COGS dan Profit")

3. Scatterplot Marketing vs Profit

Pada scatterplot tersebut menunjukkan adanya hubungan positif. Maka setiap kenaikan Marketing akan diikuti dengan kenaikan Profit meskipun hubungan tersebut tidak terlalu kuat. Selain itu, terdapat beberapa titik yang menyimpang jauh atau outlier baik pada nilai profit yang sangat tinggi maupun yang sangat rendah.

ggplot(data_baru, aes(x = Marketing, y = Profit)) +
  geom_point() +
  geom_smooth(method = "lm", se = FALSE) +
  ggtitle("Hubungan Marketing dan Profit")

Regresi Linear Berganda

Untuk memahami pengaruh dari variabel-variabel tersebut, dilakukan analisis Regresi Linear Berganda. Analisis tersebut bertujuan untuk menguji dan mengukur sejauh mana pengaruh variabel independen yaitu Sales, COGS, dan Marketing, terhadap variabel dependen Profit. Secara matematis, model regresi linear berganda dapat di representasikan melalui persamaan berikut : \[Profit = \beta_0 + \beta_1(Sales) + \beta_2(COGS) + \beta_3(Marketing) + \epsilon\] Dengan analisis regresi linear berganda dapat melakukan identifikasi variabel yang memiliki pengaruh signifikan secara statistik.

# model regresi
model = lm(Profit ~ Sales + COGS + Marketing, data = data_baru)
summary(model)
## 
## Call:
## lm(formula = Profit ~ Sales + COGS + Marketing, data = data_baru)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -123.137  -11.828   -0.518    9.241  101.270 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -22.801081   0.521941  -43.69   <2e-16 ***
## Sales         1.193813   0.004503  265.12   <2e-16 ***
## COGS         -1.195341   0.012388  -96.49   <2e-16 ***
## Marketing    -1.461141   0.020260  -72.12   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 20.48 on 4244 degrees of freedom
## Multiple R-squared:  0.9595, Adjusted R-squared:  0.9595 
## F-statistic: 3.351e+04 on 3 and 4244 DF,  p-value: < 2.2e-16

Dari hasil analisis regresi linear berganda tersebut didapatkan persamaan regresi sebagai berikut : \[Profit = -22,801 + 1,194(Sales) - 1,195(COGS) - 1,461(Marketing)\]

Intrepretasinya adalah sebagai berikut :
a. Konstanta (Intercept) = -22,801. Artinya jika nilai Sales, COGS, dan Marketing semuanya adalah 0, maka profit diperkirakan akan bernilai negatif yaitu sebesar -22,801
b. Sales = 1,194. Artinya setiap kenaikan 1 satuan Sales, maka profit akan meningkan sebesar 1,194 satuan, dengan asumsi variabel COGS dan Marketing bernilai tetap.
c. COGS = -1,195. Artinya setiap kenaikan 1 kesatuan COGS, maka profit akan menurun sebesar 1.195 satuan, dengan asumi variabel lainnya konstan.
d. Marketing = -1,461. Artinya setiap kenaikan 1 satuan pengeluaran Marketing, maka Profit akan menurun sebesar 1,461 satuan, dengan asumsi variabel lainnya konstan.

Pada model regresi berganda tersebut diperoleh nilai Adjusted R-squared = 0,9595 (95,95%). Artinya variabel Profit dapat dijelaskan oleh model yang berisi variabel Sales, COGS, dan Marketing. Sisanya sebesar 4,05% dijelaskan oleh variabel atau faktor lain diluar model ini. Model ini dinilai sangat baik dalam memprediksi Profit.

Uji Signifikansi Model

1. Uji F

Uji F digunakan untuk melihat apakah semua variabel independen secara bersama-sama mempengaruhi variabel dependen.

\[ \begin{aligned} H_0 &: \beta_1 = \beta_2 = \beta_3 = 0 && \text{(Variabel independen secara bersama-sama tidak mempengaruhi variabel dependen)} \\ H_1 &: \beta_i \neq 0, i = 0, 1, 2, 3 && \text{(Setidaknya ada satu variabel independen yang mempengaruhi variabel dependen)} \end{aligned} \]

Dari analisis regresi tersebut didapatkan nilai \(p\text{-value} < \alpha = 0,05\). Maka \(H_0\) ditolak, sehingga setidaknya ada satu variabel independen yang mempengaruhi variabel dependen.

2. Uji t

Uji t digunakan untuk melihat pengaruh masing-masing variabel secara individu. \[ \begin{aligned} H_0 &: \beta_i = 0 && \text{(Variabel independen ke-} i \text{ tidak} \text{ berpengaruh signifikan terhadap } \textit{Profit}\text{).} \\ H_1 &: \beta_i \neq 0 && \text{(Variabel independen ke-} i \text{ berpengaruh signifikan terhadap } \textit{Profit}\text{).} \end{aligned} \]

Dari analisis regresi yang sudah dilakukan, pada kolom Pr(>|t|) terlihat bahwa setiap variabel independen memiliki nilai sebesar 2e-16. Maka dapat disimpulkan bahwa masing-masing variabel independen memiliki pengaruh yang sangat signifikan terhadap variabel dependen.

Uji Asumsi Klasik

1. Uji Normalitas

Dilakukan uji normalitas residual menggunakan Kolmogorov-Smirnov yang disebabkan oleh ukuran data yang besar (<50 data).
\[\begin{aligned} H_0 &: \text{Data berdistribusi normal} \\ H_1 &: \text{Data tidak berdistribusi normal} \end{aligned}\]

library(nortest)
residu = residuals(model)
lillie.test(residuals(model))
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  residuals(model)
## D = 0.081331, p-value < 2.2e-16

\(H_0\) ditolak karena \(p\text{-value} < \alpha = 0,05\) maka data tidak berdistribusi normal.

2. Uji Multikolinearitas

Menggunakan uji Variance Inflation Factor (VIF) yang bertujuan untuk menguji multikolinearitas pada model regresi, yaitu untuk memeriksa apakah variabel independen dalam model memiliki korelasi tinggi satu sama lain.

\[\begin{aligned} VIF < 10 &: \text{Tidak terjadi multikolinearitas} \\ VIF > 10 &: \text{Terjadi multikolinearitas} \end{aligned}\]

library(car)
vif(model)
##     Sales      COGS Marketing 
##  4.691130  7.029865  3.036006

Semua nilai VIF berada dibawah 10. Artinya tidak terjadi gejala multikolinearitas.

3. Uji Heteroskedastisitas

Menggunakan uji Breusch-Pagan untuk memeriksa apakah variansi residual konstan.

\[\begin{aligned} H_0 &: \text{Terjadi homoskedastisitas} \\ H_1 &: \text{Terjadi heteroskedastisitas} \end{aligned}\]

library(lmtest)
bptest(model)
## 
##  studentized Breusch-Pagan test
## 
## data:  model
## BP = 947.05, df = 3, p-value < 2.2e-16

\(H_0\) ditolak karena \(p\text{-value} < \alpha = 0,05\). Artinya terjadi gejala heteroskedastisitas pada model.

4. Uji Autokorelasi

Dilakukan uji Durbin-Watson untuk pengujian autokorelasi. \[\begin{aligned} H_0 &: \text{Tidak terdapat autokorelasi} \\ H_1 &: \text{Terdapat autokorelasi} \end{aligned}\]

dwtest(model)
## 
##  Durbin-Watson test
## 
## data:  model
## DW = 1.7035, p-value < 2.2e-16
## alternative hypothesis: true autocorrelation is greater than 0

\(H_0\) ditolak karena \(p\text{-value} < \alpha = 0,05\). Artinya terdapat autokorelasi pada model.

Kesimpulan

Dari analisis regresi linear berganda untuk melihat pengaruh variabel Sales, Marketing, dan cost of Goods Sold tersebut memiliki nilai \(R^2\) yang tinggi yaitu 95,95% dan semua variabel prediktornya signifikan. Akan tetapi, model regresi tersebut gagal memenuhi 3 dari 4 uji asumsi klasik utama. Hal tersebut mengindikasikan bahwa hasil estimasi koefisisen dan uji signifikansinya tidak efisien, bias, atau menyesatkan.

Untuk perbaikan dari model regresi tersebut, dapat dilakukan transformasi data seperti logaritma atau differencing dan menggunakan model estimasi yang lebih robust.