library(MASS)
library(ISLR)
library(DT)
library(tidyverse)
## -- Attaching packages --------------------------------------- tidyverse 1.3.0 --
## v ggplot2 3.3.3     v purrr   0.3.4
## v tibble  3.0.6     v dplyr   1.0.4
## v tidyr   1.1.2     v stringr 1.4.0
## v readr   1.4.0     v forcats 0.5.1
## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()
## x dplyr::select() masks MASS::select()

1 Case Studies

The impact of how a dollar spent on an organization’s marketing efforts on its sales is something that all organizations should consider. A fiscally prudent organization should be using its relatively scarce resources wisely. Thus, all organizations need to ask themselves, “Is the money I’m spending worth the return on sales?” Furthermore, organizations can delve deeper by asking, “For every dollar spent on marketing, how much are we getting in return on sales?” One can answer these questions using a simple linear regression model. As always, we will use a fabricated example to examine a store’s marketing efforts and their impact on sales. This will also be a more comprehensive primer on the simple linear regression model, the model that the majority of econometrics students are first exposed to.

Marketing <- readRDS("marketing.rds") %>%
              rename("Youtube" = "youtube","Facebook" = "facebook",
                     "Newspaper" = "newspaper", "Sales" = "sales")
datatable(Marketing)

2 The Objective

Some questions, that you would like to answer properly are:

  1. Is there a relationship between advertising budget and sales?
ad_lm <- lm(Sales~. , data=Marketing)
ad_slm <- ad_lm %>% summary()
summary(ad_lm)
## 
## Call:
## lm(formula = Sales ~ ., data = Marketing)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -10.5932  -1.0690   0.2902   1.4272   3.3951 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  3.526667   0.374290   9.422   <2e-16 ***
## Youtube      0.045765   0.001395  32.809   <2e-16 ***
## Facebook     0.188530   0.008611  21.893   <2e-16 ***
## Newspaper   -0.001037   0.005871  -0.177     0.86    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.023 on 196 degrees of freedom
## Multiple R-squared:  0.8972, Adjusted R-squared:  0.8956 
## F-statistic: 570.3 on 3 and 196 DF,  p-value: < 2.2e-16
anova(ad_lm)$'Pr(>F)'[1]
## [1] 1.809337e-84

dapat dilihat p-value lebih kecil dari tingkat signifikansi.

  1. How strong is the relationship between advertising budget and sales?
rse <- summary(ad_lm)$sigma
rse
## [1] 2.022612
mean1 <- mean(Marketing$Sales)

rse/mean1
## [1] 0.1202004
rsq <- summary(ad_lm)$r.sq
rsq
## [1] 0.8972106

dari pengukuran diatas yaitu yang pertaman adalah residual standard error sebesar 2.022612 dengan nilai rata-rata variabel respon(sales) adalah 14.022. Yang menujukkan persentase kesalahan/error sekitar 12%. Yang kedua adalah rsq(R2) yang menunjukkan persentase variabilitas dalam prediktor(budget) dimana nilainya adalah 0.8972106 yang dengan persentase mendekati 90% atau mendekati 1. Hal ini menunjukkan relasi advertising budget (Youtube, Facebook, dan Newspaper) dan sales sangat kuat.

  1. Which media contribute to sales?
coef1 <- summary(ad_lm)$coefficients #matriks koefisien
coef1
##                 Estimate  Std. Error    t value     Pr(>|t|)
## (Intercept)  3.526667243 0.374289884  9.4222884 1.267295e-17
## Youtube      0.045764645 0.001394897 32.8086244 1.509960e-81
## Facebook     0.188530017 0.008611234 21.8934961 1.505339e-54
## Newspaper   -0.001037493 0.005871010 -0.1767146 8.599151e-01

dari hitungan diatas p-value untuk Youtube dan Facebook relatif rendah, namun p-value Newspaper tinggi. Yang berarti media yang berkontribusi dalam sales hanya Youtube dan Facebook.

  1. How accurately can we estimate the effect of each medium on sales?
ad_slm$adj.r.squared
## [1] 0.8956373

Jadi, koefisien penentuan adalah R2 = 0,8956373, yang berarti efek dari anggaran iklan dapat memperkirakan 89,6% dari jumlah penjualan.

  1. How accurately can we predict future sales?

Untuk mengetahui keakuratan prediksi penjualan dimasa depan, kita bisa mencari interval prediksi dan interval kepercayaan dari rata-rata setiap data (variabel respon).

#rata-rata respon
predict(ad_lm, newdata=data.frame(Youtube=177, Facebook=28, Newspaper=37),
        interval = "confidence", level = 0.95)
##        fit      lwr      upr
## 1 16.86746 16.58538 17.14955
#rata-rata individu respon
predict(ad_lm, newdata=data.frame(Youtube=177, Facebook=28, Newspaper=37),
        interval = "prediction", level = 0.95)
##        fit      lwr     upr
## 1 16.86746 12.86862 20.8663

Dengan budget itu, prediksi penjualannya adalah 16.86746 unit. Interval Prediksi selalu lebih besar dari interval kepercayaan karena memperhitungkan ketidakpastian yang terkait dengan (error yang tidak dapat direduksi). Semakin dekat data kita dengan fit, maka semakin akurat prediksi kita dengan tingkat kepercayaan 95%.

  1. Is there synergy (interaction) among the advertising media

Interaksi di antara media iklan menunjukkan salah satu masalah regresi linier yang disebut Multicollinearity. Untuk mendeteksi apakah ada masalah atau tidak,

Kita juga dapat memeriksa dengan korelasi antara setiap variabel menggunakan fungsi cor().

cor(Marketing[,1:4])
##              Youtube   Facebook  Newspaper     Sales
## Youtube   1.00000000 0.05480866 0.05664787 0.7822244
## Facebook  0.05480866 1.00000000 0.35410375 0.5762226
## Newspaper 0.05664787 0.35410375 1.00000000 0.2282990
## Sales     0.78222442 0.57622257 0.22829903 1.0000000

Dari hasil di atas, semua korelasi kurang dari 0,8 yang menyimpulkan bahwa tidak ada sinergi atau interaksi di antara media periklanan