Regresi linear sederhana digunakan untuk mengetahui hubungan antara satu variabel independen dan satu variabel dependen. Dalam penelitian ini digunakan variabel biaya iklan TV sebagai variabel independen dan penjualan sebagai variabel dependen.
library(readxl)
## Warning: package 'readxl' was built under R version 4.4.3
data <- read_excel("C:\\Users\\ASUS\\Videos\\SMT 6\\Komlan\\Data Komlan Shely.xlsx")
print(data)
## # A tibble: 200 × 2
## TV Sales
## <dbl> <dbl>
## 1 230. 22.1
## 2 44.5 10.4
## 3 17.2 12
## 4 152. 16.5
## 5 181. 17.9
## 6 8.7 7.2
## 7 57.5 11.8
## 8 120. 13.2
## 9 8.6 4.8
## 10 200. 15.6
## # ℹ 190 more rows
Data yang digunakan terdiri dari 200 observasi (data) dengan dua variabel numerik, yaitu TV sebagai variabel independen (X) yang menunjukkan pengeluaran iklan pada media televisi dan Sales sebagai variabel dependen (Y) yang menunjukkan tingkat penjualan. Data ini digunakan dalam analisis regresi linear sederhana untuk melihat pengaruh pengeluaran iklan TV terhadap penjualan. Dataset ini bersumber dari dataset Advertising yang tersedia di Kaggle.
summary(data)
## TV Sales
## Min. : 0.70 Min. : 1.60
## 1st Qu.: 74.38 1st Qu.:11.00
## Median :149.75 Median :16.00
## Mean :147.04 Mean :15.13
## 3rd Qu.:218.82 3rd Qu.:19.05
## Max. :296.40 Max. :27.00
Berdasarkan statistik deskriptif, variabel TV memiliki nilai minimum 0,70, maksimum 296,40, dan rata-rata 147,04, yang menunjukkan variasi pengeluaran iklan televisi yang cukup besar. Sementara itu, variabel Sales memiliki nilai minimum 1,60, maksimum 27,00, dan rata-rata 15,13. Nilai median kedua variabel yang mendekati mean menunjukkan bahwa data relatif tersebar cukup seimbang tanpa perbedaan yang terlalu ekstrem.
plot(data$TV, data$Sales,
xlab = "Biaya Iklan TV",
ylab = "Penjualan",
main = "Scatter Plot TV vs Sales")
Scatter plot menunjukkan adanya hubungan positif antara biaya iklan TV dan penjualan. Terlihat bahwa ketika biaya iklan TV meningkat, nilai penjualan juga cenderung meningkat. Pola titik yang membentuk kecenderungan naik ini mengindikasikan bahwa variabel TV memiliki hubungan linear dengan Sales, sehingga data ini sesuai untuk dianalisis menggunakan regresi linear sederhana.
Uji korelasi digunakan untuk melihat kekuatan hubungan antara variabel.
cor(data$TV, data$Sales)
## [1] 0.9012079
Hipotesis:
H0 : Tidak terdapat hubungan antara TV dan Sales
H1 : Terdapat hubungan antara TV dan Sales
Kriteria :
| Nilai r | Tingkat Hubungan |
|---|---|
| 0.00 – 0.199 | Sangat lemah |
| 0.20 – 0.399 | Lemah |
| 0.40 – 0.599 | Sedang |
| 0.60 – 0.799 | Kuat |
| 0.80 – 1.00 | Sangat kuat |
Kesimpulan:
Berdasarkan hasil perhitungan diperoleh nilai koefisien korelasi sebesar
0.9012079. Nilai tersebut berada pada interval 0.80 – 1.00, sehingga
dapat disimpulkan bahwa hubungan antara biaya iklan TV dan penjualan
termasuk dalam kategori sangat kuat.
Hal ini berarti semakin besar biaya iklan TV maka penjualan cenderung
meningkat.
Bentuk Umum Model Awal Pada Regresi Linear Sederhana adalah sebagai berikut: \[ y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \epsilon \]
model <- lm(Sales ~ TV, data = data)
summary(model)
##
## Call:
## lm(formula = Sales ~ TV, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6.4438 -1.4857 0.0218 1.5042 5.6932
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 6.974821 0.322553 21.62 <2e-16 ***
## TV 0.055465 0.001896 29.26 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.296 on 198 degrees of freedom
## Multiple R-squared: 0.8122, Adjusted R-squared: 0.8112
## F-statistic: 856.2 on 1 and 198 DF, p-value: < 2.2e-16
Berdasarkan hasil analisis regresi linear sederhana diperoleh nilai intercept sebesar 6.974821 dan koefisien variabel TV sebesar 0.055465. Nilai intercept menunjukkan bahwa ketika biaya iklan TV bernilai 0, maka nilai penjualan (Sales) diperkirakan sebesar 6.974821. Koefisien TV sebesar 0.055465 menunjukkan bahwa setiap peningkatan satu satuan biaya iklan TV akan meningkatkan nilai penjualan sebesar 0.055465 satuan.
Uji normalitas dilakukan pada residual model menggunakan Kolmogorov-Smirnov Test.
ks.test(residuals(model), "pnorm",
mean=mean(residuals(model)),
sd=sd(residuals(model)))
##
## Asymptotic one-sample Kolmogorov-Smirnov test
##
## data: residuals(model)
## D = 0.05659, p-value = 0.5436
## alternative hypothesis: two-sided
qqnorm(residuals(model))
qqline(residuals(model))
Hipotesis:
\[ H_0 : Residual\ berdistribusi\ normal \] \[ H1 : Residual\ tidak\ berdistribusi\ normal \] Kriteria:
Kesimpulan:
Berdasarkan hasil uji Kolmogorov–Smirnov diperoleh nilai p-value =
0.5436.
Dengan taraf signifikansi α = 0.05, karena p-value (0.5436) > 0.05,
maka gagal menolak H₀.
Sehingga dapat disimpulkan bahwa residual berdistribusi normal, sehingga
asumsi normalitas pada model regresi terpenuhi.
Uji homoskedastisitas dilakukan dengan mengecek penyebaran residual terhadap nilai prediksi.
plot(model$fitted.values, residuals(model),
xlab = "Nilai Prediksi",
ylab = "Residual",
main = "Uji Homoskedastisitas")
abline(h = 0, col = "red")
Kriteria:
Jika titik menyebar secara acak maka tidak terjadi
heteroskedastisitas.
Kesimpulan:
Berdasarkan grafik uji homoskedastisitas antara residual dan nilai
prediksi, terlihat bahwa titik-titik residual menyebar secara acak di
sekitar garis nol dan tidak membentuk pola tertentu. Hal ini menunjukkan
bahwa varians residual bersifat konstan sehingga dapat disimpulkan bahwa
model regresi memenuhi asumsi homoskedastisitas.
library(lmtest)
## Warning: package 'lmtest' was built under R version 4.4.3
## Loading required package: zoo
## Warning: package 'zoo' was built under R version 4.4.3
##
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
dw <- dwtest(model)
dw
##
## Durbin-Watson test
##
## data: model
## DW = 2.0294, p-value = 0.583
## alternative hypothesis: true autocorrelation is greater than 0
Kriteria Durbin–Watson:
DW ≈ 2 → tidak ada autokorelasi
DW < 2 → ada kecenderungan autokorelasi positif
DW > 2 → ada kecenderungan autokorelasi negatif
Kesimpulan:
Berdasarkan hasil uji Durbin–Watson diperoleh nilai DW sebesar 2.0294
dengan p-value sebesar 0.583. Nilai DW yang mendekati 2 menunjukkan
bahwa tidak terdapat autokorelasi pada residual model regresi. Selain
itu, karena p-value > 0.05, maka gagal menolak H₀, sehingga dapat
disimpulkan bahwa asumsi tidak adanya autokorelasi terpenuhi.
resettest(model)
##
## RESET test
##
## data: model
## RESET = 5.701, df1 = 2, df2 = 196, p-value = 0.003921
Berdasarkan hasil Ramsey RESET test diperoleh nilai RESET = 5.701 dengan p-value = 0.003921. Dengan taraf signifikansi α = 0.05, karena p-value < 0.05, maka H₀ ditolak.Sehingga dapat disimpulkan bahwa model regresi tidak memenuhi asumsi linearitas, yang berarti terdapat indikasi bahwa model regresi tidak berbentuk linear atau spesifikasi model belum tepat.
model <- lm(Sales ~ TV, data = data)
summary(model)
##
## Call:
## lm(formula = Sales ~ TV, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6.4438 -1.4857 0.0218 1.5042 5.6932
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 6.974821 0.322553 21.62 <2e-16 ***
## TV 0.055465 0.001896 29.26 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.296 on 198 degrees of freedom
## Multiple R-squared: 0.8122, Adjusted R-squared: 0.8112
## F-statistic: 856.2 on 1 and 198 DF, p-value: < 2.2e-16
HipotesiS:
\[ H_0 : β_1 = 0\ (variabel\ TV\ tidak\ berpengaruh\ terhadap\ Sales) \] \[ H_ 1 : β_1 ≠ 0\ (variabel\ TV\ berpengaruh\ terhadap\ Sales) \] Taraf signifikansi:5%
Kriteria:
Jika p-value < 0.05 → tolak H₀
Jika p-value ≥ 0.05 → gagal menolak H₀
Kesimpulan:
Berdasarkan hasil uji t diperoleh nilai t hitung sebesar 29.26 dengan
p-value < 2e−16 yang lebih kecil dari taraf signifikansi 0.05. Oleh
karena itu H₀ ditolak, sehingga dapat disimpulkan bahwa variabel biaya
iklan TV berpengaruh signifikan terhadap penjualan.
anova(model)
## Analysis of Variance Table
##
## Response: Sales
## Df Sum Sq Mean Sq F value Pr(>F)
## TV 1 4512.4 4512.4 856.18 < 2.2e-16 ***
## Residuals 198 1043.5 5.3
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Hipotesis:
\[ H_0: \beta_1 = 0\ (Model\ regresi\ tidak\ layak\ digunakan) \]
\[ H_1: \beta_1 \neq 0\ (Model\ regresi\ layak\ digunakan) \] Taraf Signifikan : 5%
Kriteria Pengambilan Keputusan:
Jika p-value ≤ α, tolak H₀ → model layak digunakan
Jika p-value > α, gagal tolak H₀ → model tidak layak digunakan
Kesimpulan:
Berdasarkan hasil uji F dari tabel ANOVA, nilai F = 856.18 dengan
p-value < 2.2e-16. Nilai p-value yang sangat kecil dan < 0.05 ini
menunjukkan bahwa model regresi linear sederhana antara biaya iklan TV
dan penjualan layak digunakan secara statistik. Artinya, model ini
secara keseluruhan mampu menjelaskan variasi penjualan dengan baik,
sehingga dapat dijadikan dasar untuk analisis atau prediksi lebih
lanjut.
summary(model)$r.squared
## [1] 0.8121757
Berdasarkan hasil analisis diperoleh nilai koefisien determinasi (R²) sebesar 0.8121757. Hal ini menunjukkan bahwa sebesar 81.22% variasi pada variabel Sales dapat dijelaskan oleh variabel TV dalam model regresi. Sedangkan sisanya sebesar 18.78% dijelaskan oleh faktor lain di luar model yang tidak dimasukkan dalam penelitian.
confint(model)
## 2.5 % 97.5 %
## (Intercept) 6.33874038 7.61090260
## TV 0.05172671 0.05920283
Berdasarkan hasil interval kepercayaan 95%, diperoleh bahwa nilai intercept berada pada rentang 6.33874038 hingga 7.61090260, sedangkan koefisien TV berada pada rentang 0.05172671 hingga 0.05920283. Hal ini menunjukkan bahwa dengan tingkat kepercayaan 95%, nilai parameter sebenarnya diperkirakan berada dalam interval tersebut.
plot(data$TV, data$Sales,
xlab = "Biaya Iklan TV",
ylab = "Penjualan",
main = "Regresi Linear Sederhana")
abline(model, col = "red", lwd = 2)
Berdasarkan plot regresi linear sederhana, terlihat bahwa terdapat
hubungan positif antara biaya iklan TV dan penjualan.
Garis regresi yang menanjak menunjukkan bahwa peningkatan biaya iklan TV
cenderung diikuti oleh peningkatan penjualan.
Hal ini mengindikasikan bahwa biaya iklan TV memiliki pengaruh positif
terhadap penjualan.
coef(model)
## (Intercept) TV
## 6.97482149 0.05546477
Berdasarkan hasil analisis regresi linear sederhana diperoleh model akhir dengan nilai intercept sebesar 6.97482149 dan koefisien TV sebesar 0.05546477. Sehingga model regresi yang terbentuk adalah:
\[ Sales = 6.97482149 + 0.05546477 TV \]
Contoh prediksi jika biaya iklan TV sebesar 200.
predict(model, data.frame(TV = 200))
## 1
## 18.06778
Berdasarkan hasil prediksi diperoleh nilai 18.06778. Hal ini menunjukkan bahwa jika biaya iklan TV sebesar 200, maka penjualan (Sales) yang diprediksi adalah sebesar 18.06778.
Berdasarkan hasil analisis regresi linear sederhana antara biaya iklan TV dan penjualan, model regresi yang dibangun terbukti layak digunakan secara statistik. Hal ini ditunjukkan oleh hasil uji F dengan nilai F = 856.18 dan p-value < 2.2e-16. Residual model berdistribusi normal, seperti yang terlihat dari uji Kolmogorov–Smirnov dengan p-value = 0.5436. Asumsi homoskedastisitas terpenuhi karena plot residual terhadap nilai prediksi menunjukkan penyebaran yang acak dan tidak membentuk pola tertentu. Selain itu, asumsi tidak adanya autokorelasi juga terpenuhi dengan nilai Durbin–Watson sebesar 2.0294 dan p-value = 0.583. Uji t untuk koefisien slope menunjukkan nilai t hitung = 29.26 dengan p-value < 2e−16, sehingga variabel biaya iklan TV berpengaruh signifikan terhadap penjualan. Berdasarkan plot regresi, terlihat hubungan positif antara biaya iklan TV dan penjualan, dimana peningkatan biaya iklan TV cenderung diikuti oleh peningkatan penjualan. Dengan demikian, model regresi ini memenuhi semua asumsi regresi, layak digunakan, dan dapat dijadikan dasar untuk analisis atau prediksi penjualan lebih lanjut.