Pendahuluan

Analisis ini merupakan data penjualan Coffee Chain dengan tujuan untuk mengidentifikasi faktor-faktor yang mempengaruhi Profit perusahaan. Analisis dilakukan menggunakan pendekatan kuantitatif melalui metode regresi robust dan regresi linear berganda sebagai model pembanding. Penggunaan regresi robust dipilih karena lebih tahan terhadap keberadaan outlier atau observasi ekstrem, sehingga mampu menghasilkan estimasi parameter yang lebih stabil.

Variabel yang digunakan dalam analisis ini terdiri dari Profit sebagai variabel dependen, serta Sales, COGS (Cost of Goods Sold), dan Marketing sebagai variabel independen yang secara teoritis berkaitan langsung dengan kinerja profitabilitas perusahaan.

Insight utama yang diangkat dalam analisis ini adalah Profit dipengaruhi oleh kombinasi kemampuan menghasilkan penjualan (Sales) dan efisiensi pengendalian biaya (COGS dan Marketing). Dengan demikian, analisis tidak hanya berfokus pada hubungan antar variabel, tetapi juga mengukur besarnya pengaruh masing-masing faktor terhadap profit. Selain itu, dilakukan pengujian asumsi klasik pada model regresi linear berganda serta perbandingan dengan model regresi robust untuk memperoleh hasil yang lebih komprehensif dan dapat diandalkan dalam menjelaskan kondisi data yang dianalisis.

Deskripsi Data

Sumber dan Struktur Data

Dataset yang digunakan adalah file Coffee Chain Datasets.xlsx. Dataset ini berisi data operasional dan keuangan Coffee Chain, seperti penjualan, biaya, margin, profit, inventory, dan berbagai dimensi bisnis seperti market, state, product line, dan product type.

library(readxl)
library(dplyr)
library(ggplot2)
library(knitr)
library(car)
library(lmtest)
library(robustbase)

coffee <- read_excel("C:/Users/HP/Downloads/Coffee Chain Datasets.xlsx", sheet = "data")

dim(coffee)

## [1] 4248   20

colnames(coffee)

##  [1] "Area Code"      "Date"           "Market"         "Market Size"   
##  [5] "Product"        "Product Line"   "Product Type"   "State"         
##  [9] "Type"           "Budget COGS"    "Budget Margin"  "Budget Profit" 
## [13] "Budget Sales"   "COGS"           "Inventory"      "Margin"        
## [17] "Marketing"      "Profit"         "Sales"          "Total Expenses"

Berdasarkan hasil pembacaan data, dataset ini memiliki 4248 baris dan 20 variabel.

Pemilihan Variabel

Dalam analisis ini, tidak seluruh variabel dianalisis. Variabel yang dipilih difokuskan pada insight mengenai faktor-faktor yang mempengaruhi profit, yaitu:

Profit: variabel dependen (Y)
Sales: total penjualan, diduga meningkatkan profit
COGS (Cost of Goods Sold): biaya pokok penjualan, diduga menurunkan profit
Marketing: biaya pemasaran, diduga mempengaruhi profit karena merupakan pengeluaran untuk mendukung penjualan

Alasan pemilihan variabel:

Variabel-variabel tersebut langsung berkaitan dengan performa keuangan.
Secara bisnis, profit merupakan hasil dari interaksi antara pendapatan dan biaya.
Model menjadi lebih fokus dan mudah diinterpretasikan.

data_model <- coffee %>%
  select(Profit, Sales, COGS, Marketing) %>%
  na.omit()

summary(data_model)

##      Profit           Sales          COGS          Marketing     
##  Min.   :-638.0   Min.   : 17   Min.   :  0.00   Min.   :  0.00  
##  1st Qu.:  17.0   1st Qu.:100   1st Qu.: 43.00   1st Qu.: 13.00  
##  Median :  40.0   Median :138   Median : 60.00   Median : 22.00  
##  Mean   :  61.1   Mean   :193   Mean   : 84.43   Mean   : 31.19  
##  3rd Qu.:  92.0   3rd Qu.:230   3rd Qu.:100.00   3rd Qu.: 39.00  
##  Max.   : 778.0   Max.   :912   Max.   :364.00   Max.   :156.00

Statistik Deskriptif

desc_table <- data.frame(
  Variabel = names(data_model),
  Minimum = sapply(data_model, min),
  Maksimum = sapply(data_model, max),
  Mean = sapply(data_model, mean),
  Median = sapply(data_model, median),
  SD = sapply(data_model, sd)
)

desc_table_fmt <- desc_table
desc_table_fmt[-1] <- lapply(desc_table_fmt[-1], function(x) round(x, 2))
kable(desc_table_fmt, caption = "Statistik Deskriptif Variabel yang Dianalisis")

Statistik Deskriptif Variabel yang Dianalisis
	Variabel	Minimum	Maksimum	Mean	Median	SD
Profit	Profit	-638	778	61.10	40	101.71
Sales	Sales	17	912	192.99	138	151.13
COGS	COGS	0	364	84.43	60	67.25
Marketing	Marketing	0	156	31.19	22	27.02

Berdasarkan statistik deskriptif tersebut, variabel sales memiliki nilai rata-rata tertinggi sebesar 192.99. Tingginya nilai standar deviasi, terutama pada profit (101.71) dan sales (151.13), mengindikasikan adanya variabilitas data yang sangat besar dalam observasi. Selain itu, adanya nilai minimum profit pada angka -638 menunjukkan adanya observasi ekstrem berupa kerugian signifikan yang sangat kontras dengan rata-ratanya, sehingga penanganan pencilan (outliers) menjadi tahapan yang penting dalam pemodelan supaya tidak mengubah hasil analisis.

Landasan Teori

Regresi Linear Berganda

Regresi linear berganda merupakan metode statistik yang digunakan untuk memodelkan hubungan antara satu variabel dependen dengan dua atau lebih variabel independen. Dalam analisis ini, regresi linear digunakan untuk mengukur bagaimana variabel Sales, COGS, dan Marketing mempengaruhi Profit perusahaan secara simultan.

Bentuk umum model regresi yang digunakan adalah:

\[ Profit_i = \beta_0 + \beta_1 Sales_i + \beta_2 COGS_i + \beta_3 Marketing_i + \varepsilon_i \]

di mana:

\(\beta_0\) merupakan intersep, yaitu nilai profit ketika seluruh variabel independen bernilai nol,
\(\beta_1, \beta_2, \beta_3\) merupakan koefisien regresi yang menunjukkan besarnya perubahan profit akibat perubahan masing-masing variabel independen,
\(\varepsilon_i\) merupakan error yang mencerminkan faktor-faktor lain di luar model yang mempengaruhi profit.

Dalam model ini, setiap koefisien regresi diinterpretasikan dengan asumsi bahwa variabel lainnya konstan. Dengan demikian, pengaruh masing-masing variabel dapat dianalisis secara terpisah meskipun dimasukkan dalam satu model.

Interpretasi:

Koefisien Sales diharapkan bernilai positif, yang menunjukkan bahwa peningkatan penjualan akan meningkatkan Profit perusahaan, dengan asumsi faktor lain tetap.
Koefisien COGS umumnya bernilai negatif, karena peningkatan biaya produksi atau biaya pokok penjualan akan mengurangi margin dan menurunkan Profit.
Koefisien Marketing dapat bernilai positif maupun negatif, tergantung pada efektivitas pengeluaran pemasaran. Jika pengeluaran marketing mampu meningkatkan penjualan secara signifikan, maka dampaknya terhadap Profit akan positif. Namun, jika tidak efektif, maka dapat menurunkan Profit karena menambah beban biaya.

Asumsi Klasik pada OLS

Model OLS (Ordinary Least Squares) memerlukan beberapa asumsi supaya estimasi parameter yang dihasilkan bersifat tidak bias, efisien, dan hasil inferensi statistik seperti uji t dan uji F dapat diinterpretasikan secara valid.

1. Linearitas

Asumsi linearitas menyatakan bahwa hubungan antara variabel independen dan dependen bersifat linear, sehingga perubahan pada variabel independen akan menghasilkan perubahan yang proporsional pada variabel dependen. Jika asumsi ini tidak terpenuhi, maka model linear tidak mampu merepresentasikan hubungan yang sebenarnya secara akurat.

Linearitas berdasarkan pada parameter model (\(\beta\)), bukan pada variabelnya sendiri. Jika hubungan bersifat non-linear, model akan mengalami underfitting, di mana pola data yang sebenarnya gagal ditangkap oleh garis regresi. Deteksi biasanya dilakukan melalui visualisasi Partial Regression Plots atau uji spesifikasi model.

2. Normalitas Residual

Asumsi ini menyatakan bahwa residual atau error dari model regresi berdistribusi normal. Normalitas residual penting untuk memastikan validitas pengujian statistik. Dalam analisis ini, normalitas dievaluasi menggunakan uji Shapiro-Wilk dan Q-Q plot.

Pelanggaran asumsi ini dapat menyebabkan bias pada nilai p-value, sehingga kesimpulan signifikansi variabel menjadi tidak reliabel. Namun, menurut Teorema Limit Pusat (Central Limit Theorem), jika sampel cukup besar, distribusi koefisien akan mendekati distribusi normal secara bertahap meskipun residualnya tidak normal sempurna.

3. Homoskedastisitas

Homoskedastisitas berarti varians residual bersifat konstan pada seluruh tingkat nilai prediksi. Jika varians residual tidak konstan (heteroskedastisitas), maka estimasi menjadi tidak efisien. Pengujian dilakukan menggunakan uji Breusch-Pagan dan plot residual.

Keberadaan heteroskedastisitas sering ditemukan pada data dengan rentang nilai lebar seperti sales atau profit. Meskipun koefisien tetap tidak bias, standard error yang dihasilkan akan tidak tepat, sehingga risiko kesalahan pengambilan keputusan statistik menjadi lebih tinggi.

4. Multikolinearitas

Asumsi ini menyatakan bahwa tidak terdapat hubungan yang terlalu kuat antar variabel independen. Multikolinearitas dapat menyebabkan koefisien regresi menjadi tidak stabil dan sulit diinterpretasikan. Deteksi dilakukan menggunakan Variance Inflation Factor (VIF).

Ketika variabel independen (misalnya cogs dan marketing) saling berkorelasi sangat kuat, model kesulitan memisahkan kontribusi masing-masing terhadap profit. Hal ini menyebabkan standar error membengkak dan nilai t-statistik menurun, sehingga variabel yang sebenarnya berpengaruh bisa terlihat tidak signifikan.

5. Independensi Residual

Asumsi independensi menyatakan bahwa residual antar observasi tidak saling berkorelasi. Pelanggaran terhadap asumsi ini dapat mempengaruhi validitas model, terutama dalam inferensi statistik.

Asumsi ini sangat penting terutama jika data memiliki urutan waktu (time series). Jika terdapat autokorelasi, hal tersebut menandakan adanya pola yang gagal ditangkap oleh variabel independen, yang biasanya diidentifikasi menggunakan statistik Durbin-Watson.

Dalam analisis ini, pengujian difokuskan pada normalitas residual, multikolinearitas, dan heteroskedastisitas, karena ketiga asumsi tersebut paling relevan dalam mengevaluasi kelayakan model pada data yang digunakan.

Regresi Robust

Regresi robust merupakan metode alternatif yang digunakan ketika data penelitian terdeteksi mengandung pencilan (outliers) atau observasi ekstrem yang berpotensi memberikan pengaruh berlebih (high leverage) terhadap hasil estimasi OLS (Ordinary Least Squares). Pada OLS, parameter dicari dengan meminimalkan jumlah kuadrat residual:

\[ \min \sum_{i=1}^{n} \varepsilon_i^2 \]

Namun, karena sifat kuadratik tersebut, ols menjadi sangat sensitif terhadap nilai ekstrem. Regresi robust mengatasi kelemahan ini dengan menggunakan fungsi objektif yang lebih tahan terhadap gangguan (robust), yaitu melalui pendekatan M-estimation:

\[ \min \sum_{i=1}^{n} \rho(\varepsilon_i) = \min \sum_{i=1}^{n} \rho\left( \frac{y_i - x_i'\beta}{\sigma} \right) \]

Di mana \(\rho\) merupakan fungsi kontribusi residual yang memberikan bobot lebih rendah pada observasi dengan residual besar.Observasi yang teridentifikasi sebagai pencilan akan mendapatkan bobot yang lebih kecil atau bahkan mendekati nol, sehingga estimasi parameter tetap stabil dan tidak bias oleh nilai-nilai ekstrem.

Keunggulan utama regresi robust meliputi:

Resistensi terhadap Outlier: Mampu menjaga integritas model meskipun terdapat data yang menyimpang jauh dari pola umum.
Efisiensi pada Distribusi Tidak Normal: Tetap memberikan hasil yang reliabel pada data yang memiliki ekor distribusi yang tebal.
Stabilitas Estimasi: Koefisien yang dihasilkan lebih mencerminkan mayoritas data dibandingkan ols yang cenderung tertarik ke arah pencilan.

Visualisasi Data

Scatter Plot Sales terhadap Profit

ggplot(data_model, aes(x = Sales, y = Profit)) +
  geom_point(alpha = 0.45) +
  geom_smooth(method = "lm", se = TRUE) +
  labs(
    title = "Hubungan Sales terhadap Profit",
    x = "Sales",
    y = "Profit"
  ) +
  theme_minimal()

Interpretasi:

Berdasarkan scatter plot tersebut, terlihat hubungan linear positif yang cukup kuat antara sales dan profit. Namun, terdapat sebaran titik yang cukup lebar dan menjauh dari garis regresi, terutama pada area sales rendah (di bawah 250) yang menunjukkan adanya fluktuasi laba yang signifikan pada segmen tersebut. Hal ini mengindikasikan bahwa sales bukanlah satu-satunya penentu besaran laba, melainkan terdapat pengaruh kuat dari komponen lain seperti biaya operasional yang menyebabkan beberapa observasi justru mengalami kerugian besar meskipun memiliki angka penjualan yang mirip dengan observasi yang menguntungkan.

Munculnya titik-titik pencilan (outliers) di area bawah grafik menunjukkan bahwa efisiensi biaya tetap menjadi faktor penting dalam menjaga stabilitas profit supaya tidak tersebar terlalu jauh dari peningkatan penjualan.

Scatter Plot COGS terhadap Profit

ggplot(data_model, aes(x = COGS, y = Profit)) +
  geom_point(alpha = 0.45) +
  geom_smooth(method = "lm", se = TRUE) +
  labs(
    title = "Hubungan COGS terhadap Profit",
    x = "COGS",
    y = "Profit"
  ) +
  theme_minimal()

Interpretasi:

Berdasarkan scatter plot tersebut, variabel cogs menunjukkan hubungan linear positif terhadap profit, yang mengindikasikan bahwa peningkatan biaya pokok penjualan berbanding lurus dengan pertumbuhan laba dalam observasi ini. Kondisi ini menunjukkan bahwa kenaikan volume penjualan yang mendorong cogs masih mampu menghasilkan margin yang cukup untuk meningkatkan profit secara keseluruhan. Namun, terdapat sebaran pencilan (outliers) yang signifikan baik di sisi atas maupun bawah garis regresi, yang menandakan bahwa pada tingkat cogs tertentu, profitabilitas menjadi sangat bervariasi akibat pengaruh faktor biaya lain.

Boxplot untuk Indikasi Outlier

data_long <- rbind(
  data.frame(Variabel = "Profit", Nilai = data_model$Profit),
  data.frame(Variabel = "Sales", Nilai = data_model$Sales),
  data.frame(Variabel = "COGS", Nilai = data_model$COGS),
  data.frame(Variabel = "Marketing", Nilai = data_model$Marketing)
)

ggplot(data_long, aes(x = Variabel, y = Nilai)) +
  geom_boxplot() +
  labs(
    title = "Boxplot Variabel yang Dianalisis",
    x = "Variabel",
    y = "Nilai"
  ) +
  theme_minimal()

Interpretasi:

Visualisasi boxplot menunjukkan bahwa seluruh variabel penelitian memiliki sejumlah besar pencilan (outliers), yang ditandai dengan sebaran titik di luar garis. Variabel sales dan profit memiliki distribusi pencilan yang paling ekstrem, di mana pada profit ditemukan pencilan dua arah (positif dan negatif) yang mengindikasikan variabilitas keuntungan dan kerugian yang sangat lebar. Keberadaan nilai-nilai ekstrem yang kuat ini mengonfirmasi bahwa distribusi data tidak normal, sehingga penggunaan metode estimasi yang tahan terhadap gangguan pencilan, seperti regresi robust, menjadi sangat relevan untuk menghasilkan model yang lebih akurat dan tidak bias.

Analisis Regresi Linear Berganda (OLS)

Pembentukan Model OLS

model_ols <- lm(Profit ~ Sales + COGS + Marketing, data = data_model)
summary(model_ols)

## 
## Call:
## lm(formula = Profit ~ Sales + COGS + Marketing, data = data_model)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -123.137  -11.828   -0.518    9.241  101.270 
## 
## Coefficients:
##               Estimate Std. Error t value            Pr(>|t|)    
## (Intercept) -22.801081   0.521941  -43.69 <0.0000000000000002 ***
## Sales         1.193813   0.004503  265.12 <0.0000000000000002 ***
## COGS         -1.195341   0.012388  -96.49 <0.0000000000000002 ***
## Marketing    -1.461141   0.020260  -72.12 <0.0000000000000002 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 20.48 on 4244 degrees of freedom
## Multiple R-squared:  0.9595, Adjusted R-squared:  0.9595 
## F-statistic: 3.351e+04 on 3 and 4244 DF,  p-value: < 0.00000000000000022

Interpretasi:

Berdasarkan output regresi linear berganda (OLS), diperoleh bahwa model secara keseluruhan signifikan, yang ditunjukkan oleh nilai p-value F-statistic yang sangat kecil (< 0.001). Hal ini menunjukkan bahwa variabel Sales, COGS, dan Marketing secara simultan berpengaruh terhadap Profit.

Nilai koefisien determinasi (R-squared) sebesar 0.9595 menunjukkan bahwa sekitar 95.95% variasi Profit dapat dijelaskan oleh variabel Sales, COGS, dan Marketing, sedangkan sisanya dijelaskan oleh faktor lain di luar model.

Secara parsial, seluruh variabel independen memiliki pengaruh yang signifikan terhadap Profit, dengan interpretasi sebagai berikut:

Koefisien Sales sebesar 1.1938 menunjukkan bahwa setiap kenaikan Sales sebesar 1 unit akan meningkatkan Profit sebesar 1.1938 unit, dengan asumsi variabel lain konstan.
Koefisien COGS sebesar -1.1953 menunjukkan bahwa setiap kenaikan biaya pokok penjualan sebesar 1 unit akan menurunkan Profit sebesar 1.1953 unit.
Koefisien Marketing sebesar -1.4611 menunjukkan bahwa setiap kenaikan biaya marketing sebesar 1 unit akan menurunkan Profit sebesar 1.4611 unit, yang mengindikasikan bahwa pengeluaran marketing dalam data ini belum memberikan dampak positif terhadap profit.

coef_ols <- data.frame(
  Koefisien = names(coef(model_ols)),
  Estimasi = coef(model_ols)
)

coef_ols_fmt <- coef_ols
coef_ols_fmt$Estimasi <- round(coef_ols_fmt$Estimasi, 4)
kable(coef_ols_fmt, caption = "Koefisien Model OLS")

Koefisien Model OLS
	Koefisien	Estimasi
(Intercept)	(Intercept)	-22.8011
Sales	Sales	1.1938
COGS	COGS	-1.1953
Marketing	Marketing	-1.4611

Dari hasil model OLS diatas, terlihat bahwa hubungan antara variabel pendapatan dan biaya terhadap profit berjalan dengan baik, dimana Sales cenderung menaikkan profit, sedangkan komponen biaya seperti COGS dan Marketing cenderung menekan profit.

Uji Asumsi Klasik pada Model OLS

Uji Normalitas Residual

res_ols <- residuals(model_ols)
shapiro_result <- shapiro.test(res_ols)
shapiro_result

## 
##  Shapiro-Wilk normality test
## 
## data:  res_ols
## W = 0.92661, p-value < 0.00000000000000022

qqnorm(res_ols)
qqline(res_ols, col = "red", lwd = 2)

Interpretasi:

Berdasarkan QQ Plot, terlihat bahwa sebagian besar titik residual mengikuti garis diagonal, terutama pada bagian tengah distribusi. Hal ini menunjukkan bahwa secara umum residual mendekati distribusi normal.

Namun, terdapat penyimpangan yang cukup jelas pada bagian ekor (tail), baik di sisi kiri maupun kanan, di mana titik-titik mulai menjauh dari garis diagonal. Penyimpangan ini mengindikasikan adanya kemungkinan outlier atau distribusi residual yang tidak sepenuhnya normal, khususnya pada nilai ekstrem.

Oleh karena itu, dapat disimpulkan bahwa asumsi normalitas residual tidak sepenuhnya terpenuhi secara sempurna, meskipun masih cukup mendekati normal pada sebagian besar data.

Uji Multikolinearitas

vif_values <- vif(model_ols)
vif_values

##     Sales      COGS Marketing 
##  4.691130  7.029865  3.036006

vif_table <- data.frame(
  Variabel = names(vif_values),
  VIF = as.numeric(vif_values)
)

vif_table_fmt <- vif_table
vif_table_fmt$VIF <- round(vif_table_fmt$VIF, 4)
kable(vif_table_fmt, caption = "Nilai VIF untuk Multikolinearitas")

Nilai VIF untuk Multikolinearitas
Variabel	VIF
Sales	4.6911
COGS	7.0299
Marketing	3.0360

Interpretasi:

Berdasarkan hasil perhitungan Variance Inflation Factor (VIF), diperoleh nilai VIF untuk masing-masing variabel sebagai berikut:

Sales: 4.69
COGS: 7.03
Marketing: 3.04

Seluruh nilai VIF berada di bawah 10, sehingga dapat disimpulkan bahwa tidak terdapat masalah multikolinearitas yang serius dalam model regresi. Hal ini menunjukkan bahwa variabel independen yang digunakan tidak memiliki korelasi yang terlalu tinggi satu sama lain, sehingga estimasi koefisien regresi dapat dianggap stabil dan dapat diinterpretasikan dengan baik.

Namun, nilai VIF pada variabel COGS yang relatif lebih tinggi dibandingkan variabel lainnya mengindikasikan adanya hubungan seimbang dengan variabel independen lain, meskipun masih dalam batas yang dapat diterima.

Uji Heteroskedastisitas

bptest(model_ols)

## 
##  studentized Breusch-Pagan test
## 
## data:  model_ols
## BP = 947.05, df = 3, p-value < 0.00000000000000022

plot(model_ols$fitted.values, res_ols,
     xlab = "Nilai Prediksi (Fitted Values)",
     ylab = "Residual",
     main = "Plot Residual terhadap Nilai Prediksi")
abline(h = 0, col = "red", lwd = 2)

Interpretasi:

Berdasarkan plot residual terhadap nilai prediksi, terlihat bahwa titik-titik residual tidak menyebar secara acak di sekitar garis nol. Sebaliknya, terdapat pola tertentu di mana sebaran residual semakin melebar pada nilai prediksi yang lebih tinggi.

Pola tersebut mengindikasikan adanya heteroskedastisitas, yaitu kondisi di mana varians residual tidak konstan. Hal ini menunjukkan bahwa asumsi homoskedastisitas pada model OLS tidak sepenuhnya terpenuhi.

Keberadaan heteroskedastisitas dapat menyebabkan estimasi koefisien tetap tidak bias, namun menjadi tidak efisien, serta dapat mempengaruhi keakuratan uji statistik.

Oleh karena itu, penggunaan regresi robust dalam analisis ini menjadi relevan, karena metode tersebut lebih tahan terhadap pelanggaran asumsi seperti heteroskedastisitas dan dapat memberikan estimasi yang lebih stabil.

Plot Diagnostik OLS

par(mfrow = c(2,2))
plot(model_ols)

par(mfrow = c(1,1))

Interpretasi:

Berdasarkan keempat plot diagnostik yang ditampilkan, dapat dilakukan evaluasi terhadap kecukupan model regresi OLS sebagai berikut:

Residuals vs Fitted Plot ini menunjukkan bahwa residual tidak menyebar secara acak di sekitar garis nol, melainkan membentuk pola tertentu. Hal ini mengindikasikan adanya ketidaklinieran atau heteroskedastisitas sehingga asumsi homoskedastisitas tidak sepenuhnya terpenuhi.
Normal Q-Q Plot Pada plot Q-Q, terlihat bahwa titik-titik tidak sepenuhnya mengikuti garis diagonal, terutama pada bagian ekor distribusi. Hal ini menunjukkan bahwa residual tidak berdistribusi normal secara sempurna, serta terdapat kemungkinan adanya outlier atau nilai ekstrem.
Scale-Location Plot Plot ini menunjukkan pola penyebaran residual yang tidak konstan, di mana varians residual cenderung meningkat pada nilai prediksi tertentu. Hal ini memperkuat indikasi adanya heteroskedastisitas dalam model.
Residuals vs Leverage Plot ini menunjukkan adanya beberapa observasi dengan nilai leverage yang relatif tinggi. Beberapa titik juga berada cukup jauh dari pusat, yang mengindikasikan adanya observasi berpengaruh (influential points) yang dapat memengaruhi estimasi model OLS.

Secara keseluruhan, hasil keempat plot diagnostik tersebut menunjukkan bahwa beberapa asumsi dasar regresi OLS, terutama normalitas dan homoskedastisitas, tidak sepenuhnya terpenuhi. Selain itu, terdapat indikasi keberadaan outlier dan observasi berpengaruh.

Oleh karena itu, penggunaan regresi robust dalam analisis ini menjadi sangat relevan, karena metode tersebut lebih tahan terhadap pelanggaran asumsi klasik dan mampu memberikan estimasi yang lebih stabil dibandingkan model OLS.

Analisis Model Regresi Robust

Pembentukan Model Regresi Robust

Pada tahap ini digunakan model regresi robust sebagai model utama. Model ini diharapkan mampu memberikan estimasi koefisien yang lebih stabil ketika data mengandung outlier.

model_robust <- lmrob(Profit ~ Sales + COGS + Marketing, data = data_model)
summary(model_robust)

## 
## Call:
## lmrob(formula = Profit ~ Sales + COGS + Marketing, data = data_model)
##  \--> method = "MM"
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -155.292   -7.074    1.863   16.793  420.205 
## 
## Algorithm did not converge
## 
## Coefficients of the MM-estimator:
##             Estimate Std. Error t value Pr(>|t|)
## (Intercept) -19.0949         NA      NA       NA
## Sales         1.2641         NA      NA       NA
## COGS         -0.5079         NA      NA       NA
## Marketing    -4.4606         NA      NA       NA
## 
## Robustness weights: 
##  549 observations c(8,35,41,49,51,60,67,76,77,82,90,93,98,101,111,128,135,150,155,166,171,176,185,212,218,226,229,237,244,253,254,259,267,270,275,278,289,305,312,327,332,343,348,353,362,389,395,403,406,414,421,430,431,436,443,447,448,456,466,483,489,504,509,520,525,530,541,568,576,580,584,590,597,606,608,612,620,624,625,633,643,662,666,682,687,691,707,708,718,745,753,757,761,767,774,783,785,789,797,801,803,811,820,839,843,858,863,868,884,885,895,922,930,934,938,944,951,960,962,966,974,975,978,980,988,997,1015,1020,1035,1040,1045,1061,1062,1064,1092,1109,1113,1117,1123,1131,1138,1140,1144,1152,1154,1160,1168,1172,1189,1196,1204,1206,1209,1214,1219,1234,1236,1269,1290,1294,1300,1308,1317,1321,1329,1331,1337,1345,1349,1366,1373,1383,1386,1391,1411,1413,1418,1446,1463,1467,1471,1477,1486,1493,1494,1499,1505,1506,1508,1514,1522,1527,1543,1560,1563,1568,1573,1588,1590,1596,1624,1640,1642,1648,1654,1662,1669,1671,1675,1683,1684,1685,1691,1699,1704,1718,1737,1739,1744,1755,1765,1767,1773,1801,1817,1819,1825,1831,1839,1846,1848,1852,1860,1861,1862,1868,1876,1881,1895,1914,1916,1921,1932,1942,1944,1952,1980,1994,1996,2002,2008,2016,2023,2025,2029,2037,2038,2045,2053,2058,2072,2089,2091,2093,2098,2109,2119,2121,2126,2171,2175,2179,2185,2193,2200,2215,2222,2233,2269,2270,2287,2296,2301,2303,2325,2348,2352,2356,2362,2370,2377,2383,2387,2392,2399,2407,2410,2426,2446,2447,2464,2473,2478,2480,2502,2508,2525,2529,2533,2539,2548,2554,2560,2564,2569,2576,2584,2587,2603,2618,2624,2643,2650,2655,2657,2679,2685,2702,2706,2710,2717,2726,2732,2739,2742,2747,2753,2761,2764,2780,2796,2801,2820,2827,2832,2834,2849,2853,2856,2862,2879,2883,2887,2894,2903,2909,2916,2919,2923,2924,2930,2938,2941,2949,2957,2967,2973,2974,2976,2978,2981,2997,3004,3009,3011,3026,3030,3033,3039,3056,3060,3064,3071,3080,3085,3086,3093,3096,3100,3101,3102,3107,3115,3118,3126,3134,3144,3150,3151,3153,3155,3158,3174,3181,3186,3188,3203,3205,3207,3210,3216,3232,3237,3240,3247,3255,3262,3264,3268,3272,3277,3279,3284,3292,3295,3303,3313,3323,3327,3330,3331,3332,3335,3336,3348,3356,3360,3382,3384,3387,3393,3414,3417,3424,3432,3441,3445,3449,3454,3456,3461,3469,3472,3480,3485,3501,3504,3507,3508,3509,3512,3533,3537,3542,3564,3570,3586,3591,3594,3601,3609,3616,3622,3626,3631,3633,3638,3646,3649,3662,3681,3684,3689,3702,3710,3714,3719,3741,3747,3764,3768,3772,3778,3786,3793,3799,3803,3808,3815,3823,3826,3839,3857,3866,3882,3887,3894,3896,3918,3924,3941,3945,3949,3955,3963,3970,3976,3980,3985,3992,4000,4003,4016,4034,4043,4059,4064,4071,4073,4095,4101,4118,4122,4126,4132,4140,4147,4153,4157,4162,4169,4177,4180,4193,4212,4220,4236,4241,4248)
##   are outliers with |weight| <= 1.5e-05 ( < 2.4e-05); 
##  270 weights are ~= 1. The remaining 3429 ones are summarized as
##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
## 0.0002581 0.8824000 0.9617000 0.8881000 0.9874000 0.9990000 
## Algorithmic parameters: 
##        tuning.chi                bb        tuning.psi        refine.tol 
##    1.547640000000    0.500000000000    4.685061000000    0.000000100000 
##           rel.tol         scale.tol         solve.tol          zero.tol 
##    0.000000100000    0.000000000100    0.000000100000    0.000000000100 
##       eps.outlier             eps.x warn.limit.reject warn.limit.meanrw 
##    0.000023540490    0.000000001659    0.500000000000    0.500000000000 
##      nResample         max.it         groups        n.group       best.r.s 
##            500             50              5            400              2 
##       k.fast.s          k.max    maxit.scale      trace.lev            mts 
##              1            200            200              0           1000 
##     compute.rd fast.s.large.n 
##              0           2000 
##                   psi           subsampling                   cov 
##            "bisquare"         "nonsingular"         ".vcov.avar1" 
## compute.outlier.stats 
##                  "SM" 
## seed : int(0)

Tabel Koefisien Regresi Robust

coef_robust <- data.frame(
  Koefisien = names(coef(model_robust)),
  Estimasi = coef(model_robust)
)

coef_robust_fmt <- coef_robust
coef_robust_fmt$Estimasi <- round(coef_robust_fmt$Estimasi, 4)
kable(coef_robust_fmt, caption = "Koefisien Model Regresi Robust")

Koefisien Model Regresi Robust
	Koefisien	Estimasi
(Intercept)	(Intercept)	-19.0949
Sales	Sales	1.2641
COGS	COGS	-0.5079
Marketing	Marketing	-4.4606

Interpretasi:

Berdasarkan hasil estimasi model regresi robust, diperoleh koefisien sebagai berikut:

Intercept: -19.0949
Sales: 1.2641
COGS: -0.5079
Marketing: -4.4606

Interpretasi Koefisien:

Koefisien Sales sebesar 1.2641 menunjukkan bahwa setiap kenaikan Sales sebesar 1 unit akan meningkatkan Profit sebesar 1.2641 unit, dengan asumsi variabel lain konstan. Hal ini menunjukkan bahwa penjualan merupakan faktor utama dalam meningkatkan profit perusahaan.
Koefisien COGS sebesar -0.5079 menunjukkan bahwa setiap kenaikan biaya pokok penjualan sebesar 1 unit akan menurunkan Profit sebesar 0.5079 unit. Dibandingkan dengan model OLS, pengaruh negatif COGS pada model robust terlihat lebih kecil, yang mengindikasikan bahwa sebagian pengaruh ekstrem pada OLS telah diperbaiki oleh metode robust.
Koefisien Marketing sebesar -4.4606 menunjukkan bahwa setiap kenaikan biaya marketing sebesar 1 unit akan menurunkan Profit sebesar 4.4606 unit. Hal ini mengindikasikan bahwa dalam data ini, pengeluaran marketing cenderung tidak efisien atau tidak diimbangi dengan peningkatan penjualan yang memadai.

Secara keseluruhan, pengaruh variabel pada model robust konsisten dengan model OLS, namun besaran koefisien mengalami perubahan. Hal ini menunjukkan bahwa model robust memberikan estimasi yang lebih stabil dengan mengurangi pengaruh outlier atau observasi ekstrem dalam data.

Perbandingan Model OLS dan Robust

comparison_table <- data.frame(
  Koefisien = names(coef(model_ols)),
  OLS = as.numeric(coef(model_ols)),
  Robust = as.numeric(coef(model_robust))
)

comparison_table_fmt <- comparison_table
comparison_table_fmt$OLS <- round(comparison_table_fmt$OLS, 4)
comparison_table_fmt$Robust <- round(comparison_table_fmt$Robust, 4)
kable(comparison_table_fmt, caption = "Perbandingan Koefisien Model OLS dan Regresi Robust")

Perbandingan Koefisien Model OLS dan Regresi Robust
Koefisien	OLS	Robust
(Intercept)	-22.8011	-19.0949
Sales	1.1938	1.2641
COGS	-1.1953	-0.5079
Marketing	-1.4611	-4.4606

Interpretasi:

Berdasarkan hasil perbandingan koefisien antara model OLS dan regresi robust, terlihat bahwa terdapat perbedaan nilai koefisien pada beberapa variabel sebagai berikut:

Pada variabel Sales, koefisien pada model OLS (1.1938) dan robust (1.2641) relatif mirip, yang menunjukkan bahwa pengaruh Sales terhadap Profit cukup stabil dan tidak terlalu dipengaruhi oleh outlier.
Pada variabel COGS, koefisien berubah dari -1.1953 (OLS) menjadi -0.5079 (robust), yang menunjukkan bahwa pengaruh negatif COGS terhadap Profit menjadi lebih kecil setelah pengaruh observasi ekstrem dikurangi.
Pada variabel Marketing, terjadi perbedaan yang cukup besar, dari -1.4611 (OLS) menjadi -4.4606 (robust). Hal ini mengindikasikan bahwa terdapat observasi ekstrem yang sebelumnya menutupi pengaruh sebenarnya dari variabel Marketing terhadap Profit.

Perbedaan koefisien ini menunjukkan bahwa model OLS cukup sensitif terhadap keberadaan outlier, terutama pada variabel COGS dan Marketing. Sementara itu, model regresi robust mampu memberikan estimasi yang lebih stabil dengan mengurangi pengaruh observasi ekstrem.

Dengan demikian, model regresi robust dinilai lebih representatif dalam menggambarkan hubungan antara variabel independen dan Profit pada dataset ini.

Kesimpulan

Berdasarkan analisis yang telah dilakukan, dapat disimpulkan bahwa variabel Sales, COGS, dan Marketing secara simultan berpengaruh terhadap Profit perusahaan. Hasil analisis menunjukkan bahwa Sales memiliki pengaruh positif, yang berarti peningkatan penjualan cenderung meningkatkan profit. Sebaliknya, COGS dan Marketing memiliki pengaruh negatif, yang menunjukkan bahwa peningkatan biaya, apabila tidak diimbangi dengan peningkatan penjualan yang memadai, dapat menurunkan profit.

Model regresi linear berganda (OLS) memberikan gambaran awal mengenai hubungan antar variabel, namun hasil uji asumsi klasik menunjukkan adanya pelanggaran, khususnya pada asumsi normalitas dan homoskedastisitas. Selain itu, terdapat indikasi keberadaan outlier yang mempengaruhi kestabilan model. Oleh karena itu, digunakan regresi robust sebagai model utama karena lebih tahan terhadap pengaruh observasi ekstrem dan memberikan estimasi yang lebih stabil.

Secara keseluruhan, hasil perbandingan antara model OLS dan robust menunjukkan bahwa variabel biaya, khususnya COGS dan Marketing, lebih sensitif terhadap keberadaan outlier. Hal ini menunjukkan bahwa pendekatan robust lebih representatif dalam menggambarkan hubungan antar variabel pada dataset ini.

Dengan demikian, insight utama dari analisis ini adalah bahwa profit pada Coffee Chain dipengaruhi oleh keseimbangan antara pertumbuhan penjualan dan efisiensi pengendalian biaya. Implikasi sederhananya, perusahaan perlu tidak hanya berfokus pada peningkatan penjualan, tetapi juga memastikan pengelolaan biaya dilakukan secara efisien supaya profit dapat meningkat secara berkelanjutan.

Analisis Faktor-Faktor yang Mempengaruhi Profit pada Coffee Chain Dataset

Imelda Lovena (M0724013)

Pendahuluan

Deskripsi Data

Sumber dan Struktur Data

Pemilihan Variabel

Statistik Deskriptif

Landasan Teori

Regresi Linear Berganda

Asumsi Klasik pada OLS

1. Linearitas

2. Normalitas Residual

3. Homoskedastisitas

4. Multikolinearitas

5. Independensi Residual

Regresi Robust

Visualisasi Data

Scatter Plot Sales terhadap Profit

Scatter Plot COGS terhadap Profit

Boxplot untuk Indikasi Outlier

Analisis Regresi Linear Berganda (OLS)

Pembentukan Model OLS

Uji Asumsi Klasik pada Model OLS

Uji Normalitas Residual

Uji Multikolinearitas

Uji Heteroskedastisitas

Plot Diagnostik OLS

Analisis Model Regresi Robust

Pembentukan Model Regresi Robust

Tabel Koefisien Regresi Robust

Perbandingan Model OLS dan Robust

Kesimpulan