## -- Attaching packages --------------------------------------- tidyverse 1.3.0 --
## v ggplot2 3.3.3 v purrr 0.3.4
## v tibble 3.0.6 v dplyr 1.0.4
## v tidyr 1.1.2 v stringr 1.4.0
## v readr 1.4.0 v forcats 0.5.1
## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag() masks stats::lag()
## x dplyr::select() masks MASS::select()
The impact of how a dollar spent on an organization’s marketing efforts on its sales is something that all organizations should consider. A fiscally prudent organization should be using its relatively scarce resources wisely. Thus, all organizations need to ask themselves, “Is the money I’m spending worth the return on sales?” Furthermore, organizations can delve deeper by asking, “For every dollar spent on marketing, how much are we getting in return on sales?” One can answer these questions using a simple linear regression model. As always, we will use a fabricated example to examine a store’s marketing efforts and their impact on sales. This will also be a more comprehensive primer on the simple linear regression model, the model that the majority of econometrics students are first exposed to.
Some questions, that you would like to answer properly are:
##
## Call:
## lm(formula = Sales ~ ., data = Marketing)
##
## Residuals:
## Min 1Q Median 3Q Max
## -10.5932 -1.0690 0.2902 1.4272 3.3951
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.526667 0.374290 9.422 <2e-16 ***
## Youtube 0.045765 0.001395 32.809 <2e-16 ***
## Facebook 0.188530 0.008611 21.893 <2e-16 ***
## Newspaper -0.001037 0.005871 -0.177 0.86
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.023 on 196 degrees of freedom
## Multiple R-squared: 0.8972, Adjusted R-squared: 0.8956
## F-statistic: 570.3 on 3 and 196 DF, p-value: < 2.2e-16
## [1] 1.809337e-84
dapat dilihat p-value lebih kecil dari tingkat signifikansi.
## [1] 2.022612
## [1] 0.1202004
## [1] 0.8972106
dari pengukuran diatas yaitu yang pertaman adalah residual standard error sebesar 2.022612 dengan nilai rata-rata variabel respon(sales) adalah 14.022. Yang menujukkan persentase kesalahan/error sekitar 12%. Yang kedua adalah rsq(R2) yang menunjukkan persentase variabilitas dalam prediktor(budget) dimana nilainya adalah 0.8972106 yang dengan persentase mendekati 90% atau mendekati 1. Hal ini menunjukkan relasi advertising budget (Youtube, Facebook, dan Newspaper) dan sales sangat kuat.
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.526667243 0.374289884 9.4222884 1.267295e-17
## Youtube 0.045764645 0.001394897 32.8086244 1.509960e-81
## Facebook 0.188530017 0.008611234 21.8934961 1.505339e-54
## Newspaper -0.001037493 0.005871010 -0.1767146 8.599151e-01
dari hitungan diatas p-value untuk Youtube dan Facebook relatif rendah, namun p-value Newspaper tinggi. Yang berarti media yang berkontribusi dalam sales hanya Youtube dan Facebook.
## [1] 0.8956373
Jadi, koefisien penentuan adalah R2 = 0,8956373, yang berarti efek dari anggaran iklan dapat memperkirakan 89,6% dari jumlah penjualan.
Untuk mengetahui keakuratan prediksi penjualan dimasa depan, kita bisa mencari interval prediksi dan interval kepercayaan dari rata-rata setiap data (variabel respon).
#rata-rata respon
predict(ad_lm, newdata=data.frame(Youtube=177, Facebook=28, Newspaper=37),
interval = "confidence", level = 0.95)## fit lwr upr
## 1 16.86746 16.58538 17.14955
#rata-rata individu respon
predict(ad_lm, newdata=data.frame(Youtube=177, Facebook=28, Newspaper=37),
interval = "prediction", level = 0.95)## fit lwr upr
## 1 16.86746 12.86862 20.8663
Dengan budget itu, prediksi penjualannya adalah 16.86746 unit. Interval Prediksi selalu lebih besar dari interval kepercayaan karena memperhitungkan ketidakpastian yang terkait dengan (error yang tidak dapat direduksi). Semakin dekat data kita dengan fit, maka semakin akurat prediksi kita dengan tingkat kepercayaan 95%.
Interaksi di antara media iklan menunjukkan salah satu masalah regresi linier yang disebut Multicollinearity. Untuk mendeteksi apakah ada masalah atau tidak,
Kita juga dapat memeriksa dengan korelasi antara setiap variabel menggunakan fungsi cor().
## Youtube Facebook Newspaper Sales
## Youtube 1.00000000 0.05480866 0.05664787 0.7822244
## Facebook 0.05480866 1.00000000 0.35410375 0.5762226
## Newspaper 0.05664787 0.35410375 1.00000000 0.2282990
## Sales 0.78222442 0.57622257 0.22829903 1.0000000
Dari hasil di atas, semua korelasi kurang dari 0,8 yang menyimpulkan bahwa tidak ada sinergi atau interaksi di antara media periklanan