Email : sherlytaurinsiri@gmail.com
Instagram : https://www.instagram.com/sherlytaurin
RPubs : https://rpubs.com/sherlytaurin/
Github : https://github.com/sherlytaurin/
Telegram : @Sherlytaurin
The impact of how a dollar spent on an organization’s marketing efforts on its sales is something that all organizations should consider. A fiscally prudent organization should be using its relatively scarce resources wisely. Thus, all organizations need to ask themselves, “Is the money I’m spending worth the return on sales?” Furthermore, organizations can delve deeper by asking, “For every dollar spent on marketing, how much are we getting in return on sales?” One can answer these questions using a simple linear regression model. As always, we will use a fabricated example to examine a store’s marketing efforts and their impact on sales. This will also be a more comprehensive primer on the simple linear regression model, the model that the majority of econometrics students are first exposed to.
Some questions, that you would like to answer properly are:
attach(Marketing)
lm.Youtube <- lm(Sales ~ Youtube)
lm.Facebook <- lm(Sales ~ Facebook)
lm.Newspaper <- lm(Sales ~ Newspaper)
par(mfrow = c(1,3))
plot(Youtube, Sales, cex.lab = 2, cex.axis = 1.2)
abline(lm.Youtube, col = "red", lty = 1, lwd = 2)
plot(Facebook,Sales,cex.lab=2,cex.axis=1.2)
abline(lm.Facebook, col="red", lty=1, lwd=2)
plot(Newspaper,Sales,cex.lab=2,cex.axis=1.2)
abline(lm.Newspaper, col="red", lty=1, lwd=2)Hipotesis disini adalah: \[ \begin{align} \tag{1} H_0 : \beta_{youtube} = \beta_{Facebook} = \beta_{Newspaper} = 0 \\ H_a : \beta_{youtube} \neq \beta_{Facebook} \neq \beta_{Newspaper} \neq 0 \end{align} \] Terima atau tolak \(H_0\) dapat ditentukan dengan melihat p-valuenya. Dimana jika p-value , maka tolak \(H_0\).
##
## Call:
## lm(formula = Sales ~ ., data = Marketing)
##
## Residuals:
## Min 1Q Median 3Q Max
## -10.5932 -1.0690 0.2902 1.4272 3.3951
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.526667 0.374290 9.422 <2e-16 ***
## Youtube 0.045765 0.001395 32.809 <2e-16 ***
## Facebook 0.188530 0.008611 21.893 <2e-16 ***
## Newspaper -0.001037 0.005871 -0.177 0.86
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.023 on 196 degrees of freedom
## Multiple R-squared: 0.8972, Adjusted R-squared: 0.8956
## F-statistic: 570.3 on 3 and 196 DF, p-value: < 2.2e-16
## [1] 1.809337e-84
Dari hasil, dapat dilihat \(p-value = 1.809337e^{-84}\) yang lebih kecil dari tingkat signifikansi \(\alpha = 0.05\). Yang berarti tolak \(H_0\) atau dengan kata lain slopenya tidak nol dan terdapat hubungan antara Youtube, Facebook, Newspaper, dan Sales.
Kekuatan hubungan dapat dilihat dari nilai -R-Squared-. dimana:
\[ \tag{2}
R^2 = \frac{SSR}{SST} = 1- \frac{SSE}{SST} \] dengan nilai \(R^2\) antara 0 atau 1, semakin nilai \(R^2\) mendekati 1, maka semakin kuat hubungannya.
## [1] 2.022612
## [1] 0.1202004
## [1] 0.8972106
Disini kita menggunakan 2 pengukuran dimana yang pertama adalah rse (residual standard error) sebesar 2.022612 dengan nilai rata-rata variabel respon(sales) adalah 14.022. Yang menujukkan persentase kesalahan/error sekitar 12%.
Yang kedua adalah rsq(\(R^2\)) yang menunjukkan persentase variabilitas dalam respon yang dijelaskan oleh prediktor(budget) dimana nilainya adalah 0.8972106 yang dengan persentase mendekati 90% atau dengan kata lain mendekati 1.
Hal ini menunjukkan relasi advertising budget (Youtube, Facebook, dan Newspaper) dan sales sangat kuat.
Untuk mengetahui media yang berkontribusi, kita dapat mencarinya dengan p-value dari setiap variabel bebasnya (variabel respon).
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.526667243 0.374289884 9.4222884 1.267295e-17
## Youtube 0.045764645 0.001394897 32.8086244 1.509960e-81
## Facebook 0.188530017 0.008611234 21.8934961 1.505339e-54
## Newspaper -0.001037493 0.005871010 -0.1767146 8.599151e-01
Dari perhitungan dapat dilihat p-value untuk Youtube dan Facebook rendah, tapi p-value Newspaper tinggi. Berarti media yang berkontribusi dalam sales hanya Youtube dan Facebook.
Untuk mengetahui keakuratan estimasi efek tiap media terhadap sales dapat menggunakan interval kepercayaan.
## lolim uplim
## (Intercept) 2.79305907 4.26027542
## Youtube 0.04303065 0.04849864
## Facebook 0.17165200 0.20540804
## Newspaper -0.01254467 0.01046969
## 2.5 % 97.5 %
## (Intercept) 2.78851474 4.26481975
## Youtube 0.04301371 0.04851558
## Facebook 0.17154745 0.20551259
## Newspaper -0.01261595 0.01054097
Standar error dari \(\hat \beta_j\) dapat digunakan untuk menentukan interval kepercayaan dari \(\beta_j\). Untuk variabel prediktor (data advertising), interval kepercayaan 95%-nya adalah: (0.043, 0.049) untuk Youtube, (0.172, 0.205) untuk Facebook, dan (-0.013 , 0.011) untuk Newspaper.
Interval kepercayaan untuk Youtube dan Facebook jauh lebih besar dari 0 yang berarti Youtube dan Facebook berpengaruh besar/lebih akurat terhadap Sales. Sedangkan interval kepercayaan untuk Newspaper termasuk 0 yang berarti variabel prediktor ini tidak signifikan secara statistik/tidak akurat.
## Youtube Facebook Newspaper
## 1.004611 1.144952 1.145187
Lalu karena VIF nya adalah 1.005, 1.145, dan 1.145 untuk Youtube, Facebook, dan Newspaper, itu berarti tidak ada hubungan koleniaritas.
Untuk mengetahui keakuratan prediksi penjualan dimasa depan, kita bisa mencari interval prediksi dan interval kepercayaan dari rata-rata setiap data (variabel respon).
#rata-rata respon
predict(ad_lm, newdata=data.frame(Youtube=177, Facebook=28, Newspaper=37),
interval = "confidence", level = 0.95)## fit lwr upr
## 1 16.86746 16.58538 17.14955
#rata-rata individu respon
predict(ad_lm, newdata=data.frame(Youtube=177, Facebook=28, Newspaper=37),
interval = "prediction", level = 0.95)## fit lwr upr
## 1 16.86746 12.86862 20.8663
Dengan memisalkan budget setiap variabel respon yang di kasus ini saya ambil dari rata-ratanya dan saya bulatkan, maka dapat dimisalkan budget untuk: \[
Youtube = $177,000 \\
Facebook = $28000 \\
Newspaper = $37000
\] Dengan budget itu, prediksi penjualannya adalah 16.86746 unit.
Interval Prediksi selalu lebih besar dari interval kepercayaan karena memperhitungkan ketidakpastian yang terkait dengan (error yang tidak dapat direduksi).
Semakin dekat data kita dengan fit, maka semakin akurat prediksi kita dengan tingkat kepercayaan 95%.
Untuk mengetahui apakah ada sinergi antar media, saya melakukan beberapa percobaan.
Yang pertama saya mencoba menambahkan variabel relasi antar variabel seperti ini:
##
## Call:
## lm(formula = Sales ~ .^2, data = Marketing)
##
## Residuals:
## Min 1Q Median 3Q Max
## -7.1087 -0.4745 0.2248 0.7172 1.8320
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.752e+00 3.811e-01 20.342 <2e-16 ***
## Youtube 2.033e-02 1.609e-03 12.633 <2e-16 ***
## Facebook 2.293e-02 1.141e-02 2.009 0.0460 *
## Newspaper 1.703e-02 1.007e-02 1.691 0.0924 .
## Youtube:Facebook 9.494e-04 4.764e-05 19.930 <2e-16 ***
## Youtube:Newspaper -6.643e-05 2.983e-05 -2.227 0.0271 *
## Facebook:Newspaper -9.133e-05 1.969e-04 -0.464 0.6433
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.126 on 193 degrees of freedom
## Multiple R-squared: 0.9686, Adjusted R-squared: 0.9677
## F-statistic: 993.3 on 6 and 193 DF, p-value: < 2.2e-16
# membandingkan R^2 awal dan setelah menambah variabel relasi antar variabel
summary(ad_lm2)$r.sq;summary(ad_lm)$r.sq## [1] 0.9686311
## [1] 0.8972106
Dari hasil yang didapat melalui membuat interaksi dalam model diatas, terjadi peningkatan pada \(R^2\) dari sekitar 90% menjadi hampir 97%.
Tetapi, bila dilihat pada variabel Newspaper dan variabel lainnya yang dikaitkan dengan Newspaper, p-valuenya tidak signifiikan. Sehingga saya akan mencoba model lainnya dengan menghilangkan variabel Newspaper.
Model pertama setelah menghilangkan variabel Newspaper adalah Metode Kuadrat. Hasilnya seperti dibawah ini:
ad_lm3 <- lm(Sales~Youtube + Facebook + I(Youtube^2)+I(Facebook^2), data = Marketing)
summary(ad_lm3)##
## Call:
## lm(formula = Sales ~ Youtube + Facebook + I(Youtube^2) + I(Facebook^2),
## data = Marketing)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8.8784 -1.0211 0.0451 1.1737 4.0473
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.842e+00 4.912e-01 3.750 0.000233 ***
## Youtube 7.852e-02 4.978e-03 15.774 < 2e-16 ***
## Facebook 1.588e-01 2.830e-02 5.613 6.78e-08 ***
## I(Youtube^2) -9.486e-05 1.395e-05 -6.799 1.26e-10 ***
## I(Facebook^2) 5.946e-04 4.757e-04 1.250 0.212862
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.818 on 195 degrees of freedom
## Multiple R-squared: 0.9174, Adjusted R-squared: 0.9157
## F-statistic: 541.2 on 4 and 195 DF, p-value: < 2.2e-16
## [1] 0.9173613
Bila dilihat dari p-value setiap variabel, terlihat bahwa I(Facebook^2) tidak signifikan dengan p-value sebesar 0,212862 dengan = 0.1. Pada model ini didapat $R^2 = 92% $.
Karena masih ada yang tidak signifikan, saya mencoba model yang selanjutnya.
Model selanjutnya yang saya gunakan adalah model Polynomial. Hasilnya sebagai berikut:
##
## Call:
## lm(formula = Sales ~ Facebook + poly(Youtube, 6), data = Marketing)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.0709 -0.9505 0.0540 0.8717 4.8638
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 11.364300 0.221824 51.231 < 2e-16 ***
## Facebook 0.195678 0.006727 29.086 < 2e-16 ***
## poly(Youtube, 6)1 66.391811 1.671918 39.710 < 2e-16 ***
## poly(Youtube, 6)2 -12.467164 1.678149 -7.429 3.5e-12 ***
## poly(Youtube, 6)3 8.842684 1.675098 5.279 3.5e-07 ***
## poly(Youtube, 6)4 -4.353868 1.670212 -2.607 0.00986 **
## poly(Youtube, 6)5 3.720425 1.672730 2.224 0.02730 *
## poly(Youtube, 6)6 -2.050028 1.669531 -1.228 0.22099
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.669 on 192 degrees of freedom
## Multiple R-squared: 0.9314, Adjusted R-squared: 0.9289
## F-statistic: 372.5 on 7 and 192 DF, p-value: < 2.2e-16
## [1] 0.9314099
Dapat dilihat dari hasil berikut, menyatakan bahwa mulai dari \(Youtube^4\), sudah mulai tidak signifikan bila dilihat dari p-valuenya. Pada model ini didapatkan \(R^2 = 93\%\).
Dilihat dari model, kita dapat menggunakan polynomial hingga \(Youtube^3\). Sehingga selanjutnya saya mencoba menggabungkan semua variabel agar mendapatkan hasil interaksi yang kuat. Hasilnya sebagai berikut:
ad_lm5 <- lm(Sales~ Facebook + Youtube*Facebook + poly(Youtube,3), data = Marketing)
summary(ad_lm5)##
## Call:
## lm(formula = Sales ~ Facebook + Youtube * Facebook + poly(Youtube,
## 3), data = Marketing)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.0621 -0.2527 0.0267 0.2945 1.4012
##
## Coefficients: (1 not defined because of singularities)
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.737e+00 1.598e-01 48.421 < 2e-16 ***
## Facebook 4.206e-02 4.801e-03 8.761 9.63e-16 ***
## Youtube 2.008e-02 8.050e-04 24.952 < 2e-16 ***
## poly(Youtube, 3)1 NA NA NA NA
## poly(Youtube, 3)2 -1.205e+01 6.064e-01 -19.865 < 2e-16 ***
## poly(Youtube, 3)3 6.281e+00 6.091e-01 10.312 < 2e-16 ***
## Facebook:Youtube 8.698e-04 2.343e-05 37.129 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.6031 on 194 degrees of freedom
## Multiple R-squared: 0.991, Adjusted R-squared: 0.9907
## F-statistic: 4250 on 5 and 194 DF, p-value: < 2.2e-16
## [1] 0.9909532
Dilihat dari hasil yang ada, interaksi setiap variabel (Youtube dan Facebook) sudah signifikan bila dilihat dari p-value nya.
Dengan ini kita dapat mengatakan bahwa terdapat efek sinergi atau interaksi antara Youtube dan Facebook dengan \(R^2\) sebesar 99% yang berarti hubungannya sangat kuat.