1 PENDAHULUAN

1.1 Latar Belakang

Seiring meningkatnya kebutuhan masyarakat akan bahan makanan, dan minuman, memicu munculnya persaingan antar perusahaan yang menaungi bisnis supermarket. Umumnya perusahaan memasarkan produknya melalui iklan digital agar dapat menarik perhatian konsumen utamanya di media sosial. Dengan adanya iklan diharapkan dapat memengaruhi keputusan konsumen dan meningkatkan pemahaman konsumen akan produk yang ditawarkan. Dalam hal ini, analisis statistik mampu menjadi alat yang sangat berguna untuk memprediksi pendapatan yang diperoleh sehingga keberhasilan bisnis dapat tercapai.

Begitu pula dengan perusahaan FOODmart ltd yang berada di Australia ingin mengetahui pengaruh biaya iklan terhadap pendapatan supermarket yang dikelolanya. Perusahaan juga dapat mengevaluasi dan memprediksi berapa target pendapatan yang diinginkan dengan lebih efektif.

1.2 Tinjauan Pustaka

1.2.1 Analisis Regresi

Analisis regresi adalah suatu metode penelitian untuk menggambarkan dan memodelkan hubungan antara variabel dependen (Y) dengan variabel independen (X). Analisis regresi linier terbagi menjadi dua jenis, yaitu analisis regresi linier sederhana dan analisis regresi linier berganda. Analisis regresi linier sederhana digunakan untuk memodelkan hubungan antara variabel dependen (Y) dengan satu variabel independen (X). Sedangkan analisis regresi linier berganda digunakan untuk memodelkan hubungan antara variabel dependen (Y) dengan beberapa variabel independen (X).

Berikut model dari analisis regresi linier sederhana. \[ Y = \beta_0 + \beta_1 X + \epsilon \]

Berikut model dari analisis regresi linier berganda. \[ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_k X_k + \epsilon \] Dalam penelitian ini saya menggunakan analisis regresi linier sederhana.

1.3 Asumsi yang melandasi analisis regresi

Analisis regresi dapat dilakukan jika terlah memenuhi asumsi-asumsi berikut.

1.3.1 Asumsi Normalitas

Darlington & Hayes (2017) mengemukakan bahwa analisis regresi mengasumsikan y berdistribusi normal atau residual berdistribusi normal. Asumsi normalitas dapat dilihat dari segi grafis, maupun melalui uji statistik. Dari segi grafis dapat melalui histogram residual. Sedangkan dari uji statistik , dapat dilakukan uji Shapiro Wilk, uji Kolmogorov Smirnov, dan lain lain. Jika asumsi normalitas tidak terpenuhi maka hasilnya menjadi bias.

1.3.2 Asumsi Homoskedastisitas

Jika asumsi tidak terpenuhi maka Y memiliki varian atau ragam yang cukup besar. Heteroskedastisitas mengakibatkan estimasi terganggunya parameter regresi, terjadi ketika standar deviasi bernilai berbeda dari periode waktu sebelumya atau tidak konstan. Uji statistik yang digunakan untuk memenuhi asumsi ini diantaranya Uji Korelasi Spearman, Uji Park, Uji White, dan lain-lain.

1.3.3 Asumsi Non-Autokorelasi

Jika galat yang terindikasi terdapat autokorelasi, bisa jadi informasi yang diberikan jauh dari realitanya sehingga perhitungan tidak valid. Uji statistik yang digunakan untuk memenuhi asumsi ini adalah Uji Durbin Watson.

1.3.4 Asumsi Non-Multikolinearitas

Asumsi ini menyatakan tidak adanya hubungan linier yang sangat kuat, sehingga koefisien regresi menjadi bias dan tidak dapat menjelaskan informasi yang pada variabel dependen. Uji untuk mendeteksi adanya multikolinearitas dianratanya VIF(Variance Inflation Factor), Tolerance, dan lain-lain.

Apabila sudah memenuhi asumsi tersebut maka penduga tersebut merupakan penduga tak bias (BLUE estimator). BLUE adalah singkatan dari Best, Linear,Unbiased, Estimator.

1.4 Data

Data yang digunakan dalam penelitian ini merupakan data dari salah satu supermarket di Australia, yaitu FOODmart ltd. Data ini berisi seluruh kegiatan operasional yang ada di supermarket.

1.5 Tujuan

Penelitian ini bertujuan untuk menganalisis dan memprediksi tingkat penjualan menggunakan regresi linier sederhana. Dengan menggunakan metode regresi linier sederhana, penelitian ini mencoba untuk mengukur dan memodelkan hubungan variabel dependen seperti penjualan dan variabel independen seperti biaya iklan. Hasil penelitian ini dapat memberikan wawasan tentang hubungan antar variabel agar dapat digunakan untuk mengambil keputusan.

1.6 Manfaat

Bagi penulis : Dapat mengaplikasikan metode analisis regresi sederhana pada studi kasus serta melakukan uji asumsi yang harus dipenuhi dalam analisis regresi linier.

Bagi pembaca : Menambah wawasan dan dapat dijadikan referensi bagi mahasiswa yangs edang menempuh mata kuliah Komputasi Statistika.

2 SOURCE CODE, HASIL, DAN PEMBAHASAN

2.1 Library

> library(readr)
> library(lmtest)

2.2 Impor Data

Data diimport melalui file as path yang menunjukkan lokasi file csv tersebut berada.

> datastores <- read_delim("D:/Stores.csv", delim=";")
> datastores
# A tibble: 150 × 3
   `Store No.` Sales   Adv
         <dbl> <dbl> <dbl>
 1           1   125   171
 2           2   145   213
 3           3    19   255
 4           4   182   287
 5           5    76   112
 6           6   185   238
 7           7   131   124
 8           8   149   214
 9           9   171   215
10          10    92   154
# ℹ 140 more rows
> View(datastores)

2.3 Estimasi Model Regresi

Hitung koefisien beta dengan rumus berikut. \[ \hat{\beta}_1 = \frac{S_{xy}}{S_{xx}} \]

\[ \hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{X} \]

> n <- 150
> k <- 1
> x <- datastores$Adv
> y <- datastores$Sales
> xbr <- mean(x)
> ybr <- mean(y)
> DBR <- 1
> DBG <- n-k-1
> DBT <- n-1
> sxx <- sum(x^2)-(sum(x)^2)/n
> sxx
[1] 688859.8
> sxy <- sum(x*y)-(sum(x)*sum(y))/n
> sxy
[1] 265687.4
> b1 <- sxy/sxx
> b1
[1] 0.3856916
> b0 <- ybr-(b1*xbr)
> b0
[1] 47.43125

sehingga didapatkan model regresi sebagai berikut. \[ Y = 47.4312463\beta_0 + 0.3856916\beta_1 X + \epsilon \]

Interpretasi :

\(\beta_0\) = intersep atau nilai Y ketika X=0 adalah 47.43125.

\(\beta_1\) = kenaikan pendapatan sebesar 0.3856916 jika biaya iklan naik 1 unit.

2.4 Uji Parsial

Hipotesis :

\(H_0 : \beta_1 = 0\)

\(H_1 : \beta_1 \neq 0\)

Statistik Uji: \[ t = \frac{\hat{\beta}_i}{\text{SE}(\hat{\beta}_i)} \]

> n <- length(x)
> k <- 1
> x <- datastores$Adv
> y <- datastores$Sales
> xbr <- mean(x)
> ybr <- mean(y)
> DBR <- k
> DBG <- n-k-1
> DBT <- n-1
> sxx <- sum(x^2)-(sum(x)^2)/n
> sxx
[1] 688859.8
> sxy <- sum(x*y)-(sum(x)*sum(y))/n
> sxy
[1] 265687.4
> b1 <- sxy/sxx
> b1
[1] 0.3856916
> b0 <- ybr-(b1*xbr)
> b0
[1] 47.43125
> beta <- c(b0,b1)
> beta
[1] 47.4312463  0.3856916
> 
> syy <- sum(y^2)-(sum(y)^2)/n
> sse <- syy-(b1*sxy)
> sigma <- sse/(n-2)
> sigma
[1] 1514.185
> 
> t <- b1/sqrt(sigma/sxx)
> t
[1] 8.226519
> 
> pval1 <- 2 * pt(abs(t), df = n - 2, lower.tail = FALSE)
> pval1
[1] 9.114474e-14

Keputusan : Karena p-value (0,000) < \(\alpha\) (0,05), maka tolak \(H_0\).

Kesimpulan : Dapat disimpulkan bahwa biaya iklan berpengaruh signifikan terhadap pendapatan perusahaan yang menaungi supermarket.

2.5 Uji Simultan

Hipotesis :

\(H_0 : \beta_0 = \beta_1 = 0\)

\(H_1 : \beta_0 =\beta_i \neq 0\)

2.5.1 Anova

> n <- length(x)
> k <- 1
> x <- datastores$Adv
> y <- datastores$Sales
> xbr <- mean(x)
> ybr <- mean(y)
> DBR <- k
> DBG <- n-k-1
> DBT <- n-1
> sxx <- sum(x^2)-sum(x)^2/n
> sxx
[1] 688859.8
> sxy <- sum(x*y)-(sum(x)*sum(y))/n
> sxy
[1] 265687.4
> b1 <- sxy/sxx
> b1
[1] 0.3856916
> 
> b0 <- ybr-(b1*xbr)
> b0
[1] 47.43125
> beta <- c(b0,b1)
> beta
[1] 47.4312463  0.3856916
> y_duga <- b0 + b1*x
> y_duga
  [1] 113.38451 129.58356 145.78260 158.12473  90.62871 139.22585  95.25700
  [8] 129.96925 130.35494 106.82775  84.84333 163.52442  94.87131 104.51360
 [15] 135.36893  99.88530 189.75145 119.55557  72.88689  92.17147 102.97084
 [22] 124.95526  84.45764  99.11392  86.38610  79.05796 167.38133  72.50120
 [29]  59.38769 143.46845 123.41249 129.58356  74.04397 124.95526  74.04397
 [36]  92.55716  78.67227 128.81217 105.67068  77.12950  85.61471 156.58197
 [43] 123.02680 145.01122 125.72664 110.68467 103.74222  94.09993  96.79977
 [50]  98.34254  76.35812 102.97084 106.05637  87.54317  90.62871 101.04238
 [57] 105.28499  70.57274 150.02521 128.04079 117.24143 116.85573  90.24301
 [64] 105.28499 181.65192 129.96925 101.81376 104.51360 103.74222 124.18387
 [71] 113.38451  94.48562  89.85732  75.58673  81.75780 111.45605  92.94285
 [78]  92.55716 114.92728  86.77179 117.62712 136.14031  70.18705  74.81535
 [85]  65.17306  64.01598  95.64270  92.94285  86.38610 129.58356  91.78578
 [92]  94.09993  74.04397 116.08435  80.21503 156.19628 107.59914  80.60072
 [99] 129.19786 107.98483  82.52918 112.61313 114.92728  77.12950  95.64270
[106]  86.77179 143.46845  99.11392  97.18546  67.10152  60.15907  94.09993
[113]  92.17147  73.65827 161.59596 111.07036  82.91487  89.47163  95.64270
[120] 124.18387  91.01440 156.96766  91.78578 119.94127 101.04238 136.91170
[127]  79.44365  86.00041  91.01440  86.00041  94.87131  88.31456  96.02839
[134] 124.56957  65.55875 125.34095  84.84333  66.33013  79.82934 128.04079
[141]  74.42966 118.78419 128.04079 114.92728  92.94285 145.01122  55.14508
[148]  87.15748  93.71424  86.77179
> 
> SST <- sum((y-ybr)^2)
> SST
[1] 326572.8
> 
> SSR <- sum((y_duga-ybr)^2)
> SSR
[1] 102473.4
> 
> SSE <- SST-SSR
> SSE
[1] 224099.4
> 
> MSR <- SSR/k
> MSR
[1] 102473.4
> 
> MSE <- SSE/(n-k-1)
> MSE
[1] 1514.185
> 
> StatistikF <- MSR/MSE
> StatistikF
[1] 67.67561
> 
> pval2 <- pf(StatistikF, DBR, DBG, lower.tail = FALSE)
> pval2
[1] 9.114474e-14
> 
> SK <- c("Regresi", "Galat", "Total")
> DB <- c(DBR, DBG, DBT)
> JK <- c(SSR, SSE, SST)
> KT <- c(MSR, MSE, NA)
> SU_F <- StatistikF
> pvalue <- c(pval2, NA, NA)
> Anova <- data.frame(SK, DB, JK, KT, SU_F, pvalue)
> Anova
       SK  DB       JK         KT     SU_F       pvalue
1 Regresi   1 102473.4 102473.410 67.67561 9.114474e-14
2   Galat 148 224099.4   1514.185 67.67561           NA
3   Total 149 326572.8         NA 67.67561           NA
> 
> model <- lm(y~x)
> summary(model)

Call:
lm(formula = y ~ x)

Residuals:
     Min       1Q   Median       3Q      Max 
-140.596  -12.143    7.607   25.607   53.348 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 47.43125    7.60067   6.240 4.36e-09 ***
x            0.38569    0.04688   8.227 9.11e-14 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 38.91 on 148 degrees of freedom
Multiple R-squared:  0.3138,    Adjusted R-squared:  0.3091 
F-statistic: 67.68 on 1 and 148 DF,  p-value: 9.114e-14

Keputusan : Karena p-value (0,000) > \(\alpha\) (0,05), maka tolak \(H_0\).

Kesimpulan : Dapat disimpulkan bahwa biaya iklan berpengaruh signifikan terhadap pendapatan perusahaan yang menaungi supermarket.

2.6 Koefisien Determinasi

Keandalan dari model yang diperoleh dapat dilihat dari kemampuan model menerangkan keragaman Berikut rumus untuk menghitung koefisien determinasi.

\[ R^2 = \frac{JKR}{JKT} \]

3 Koefisien Determinasi

> r_sq <- SSR/SST
> r_sq
[1] 0.3137842

Diperoleh koefisien determinasi sebesar 0.3137842. Model tersebut mampu menerangkan variabel respon atau pendapatan sebesar 31,37%.

3.1 Uji Asumsi

3.1.1 Asumsi Normalitas

Hipotesis :

\(H_0\) : Sisaan berdistribusi normal

\(H_1\) : Sisaan tidak berdistribusi normal

Statistik Uji :


    Shapiro-Wilk normality test

data:  residuals
W = 0.83516, p-value = 1.067e-11

Keputusan dan kesimpulan :

Karena p-value (0,000) < \(\alpha\) (0,05), maka tolak \(H_0\).

Terbukti ada pelanggaran asumsi normalitas galat.

3.1.2 Asumsi Homoskedastisitas

Hipotesis :

\(H_0\) : Ragam konstan

\(H_1\) : Ragam tidak konstan

Statistik Uji:

> plot(predict(model), residuals, xlab = "Nilai Prediksi", ylab = "Residual",
+      main = "Plot Residual vs Nilai Prediksi", col="red")

> library(lmtest)
> bptest(model)

    studentized Breusch-Pagan test

data:  model
BP = 5.229, df = 1, p-value = 0.02221

Keputusan dan Kesimpulan :

Karena p-value (0,02221) < \(\alpha\) (0,05), maka tolak \(H_0\).

Terbutki ada pelanggaran asumsi homogenitas ragam galat pada model.

3.1.3 Asumsi Non-Autokorelasi

Hipotesis :

\(H_0 : \rho = 0\)

\(H_1 : \rho \neq 0\)

Statistik Uji :

> library(lmtest)
> dwtest(model)

    Durbin-Watson test

data:  model
DW = 2.381, p-value = 0.9906
alternative hypothesis: true autocorrelation is greater than 0

Keputusan dan Kesimpulan :

Karena p-value (0,9906) > \(\alpha\) (0,05), maka terima \(H_0\).

Terbukti tidak ada masalah autokorelasi.

3.1.4 Asumsi Non-Multikolinearitas

> library(car)
> vif <- 1/(1-r_sq)
> vif
[1] 1.457268
> tol<- 1/vif
> tol
[1] 0.6862158

Nilai VIF kurang dari 10 dan nilai TOL mendekati 1 maka dapat disimpulkan tidak terjadi multikolinearitas.

4 KESIMPULAN

Dari hasil analisis yang telah dilakukan dapat disimpulkan bahwa pendapatan perusahaan FOODmart ltd dipengaruhi oleh biaya iklan yang dikeluarkan. Yang berarti perusahaan harus mampu mengoptimalkan biaya iklan agar mempengaruhi keputusan konsumen sehingga dapat menaikkan pendapatan. Namun, perlu berhati-hati karena data yang ada tidak memenuhi asumsi normalitas, dan asumsi homoskedastisitas. Sehingga perlu dilakukan transformasi, regresi robust, dan teknik statistika lainnya yang dapat mengatasi hal tersebut.

5 DAFTAR PUSTAKA

Darlington, R. B. & Hayes, A. F. 2017. Regression Analysis and Linear Models: Concepts, Applications, and Implementation. New York: The Guilford Press.

Purwati AA, Siahaan JJ & Hamzah Z 2018, „Analisis pengaruh iklan, harga dan variasi produk terhadap keputusan pembelian di toko rumah
pekanbaru‟, Jurnal Ekonomi KIAT, vol. 30, no. 1, hal. 20-28.

Abednego Stephen, Athluna Canthika, Davin Subrata, dan Devina Veronika. 2019. Pengaruh Iklan Terhadap Proses Keputusan Pembelian Konsumen. Indonesian Business Review, 2(2), 233–248.

Sumber data : https://www.kaggle.com/datasets/dermisfit/foodmart-dataset