Pendahuluan

Regresi linear sederhana digunakan untuk mengetahui hubungan antara satu variabel independen dan satu variabel dependen. Dalam penelitian ini digunakan variabel biaya iklan TV sebagai variabel independen dan penjualan sebagai variabel dependen.

Data

library(readxl)
## Warning: package 'readxl' was built under R version 4.4.3
data <- read_excel("C:\\Users\\ASUS\\Videos\\SMT 6\\Komlan\\Data Komlan Shely.xlsx")

print(data)
## # A tibble: 200 × 2
##       TV Sales
##    <dbl> <dbl>
##  1 230.   22.1
##  2  44.5  10.4
##  3  17.2  12  
##  4 152.   16.5
##  5 181.   17.9
##  6   8.7   7.2
##  7  57.5  11.8
##  8 120.   13.2
##  9   8.6   4.8
## 10 200.   15.6
## # ℹ 190 more rows

Data yang digunakan terdiri dari 200 observasi (data) dengan dua variabel numerik, yaitu TV sebagai variabel independen (X) yang menunjukkan pengeluaran iklan pada media televisi dan Sales sebagai variabel dependen (Y) yang menunjukkan tingkat penjualan. Data ini digunakan dalam analisis regresi linear sederhana untuk melihat pengaruh pengeluaran iklan TV terhadap penjualan. Dataset ini bersumber dari dataset Advertising yang tersedia di Kaggle.

Eksplorasi Data Analisis (EDA)

Statistik Deskriptif

summary(data)
##        TV             Sales      
##  Min.   :  0.70   Min.   : 1.60  
##  1st Qu.: 74.38   1st Qu.:11.00  
##  Median :149.75   Median :16.00  
##  Mean   :147.04   Mean   :15.13  
##  3rd Qu.:218.82   3rd Qu.:19.05  
##  Max.   :296.40   Max.   :27.00

Berdasarkan statistik deskriptif, variabel TV memiliki nilai minimum 0,70, maksimum 296,40, dan rata-rata 147,04, yang menunjukkan variasi pengeluaran iklan televisi yang cukup besar. Sementara itu, variabel Sales memiliki nilai minimum 1,60, maksimum 27,00, dan rata-rata 15,13. Nilai median kedua variabel yang mendekati mean menunjukkan bahwa data relatif tersebar cukup seimbang tanpa perbedaan yang terlalu ekstrem.

Scatter Plot

plot(data$TV, data$Sales,
     xlab = "Biaya Iklan TV",
     ylab = "Penjualan",
     main = "Scatter Plot TV vs Sales")

Scatter plot menunjukkan adanya hubungan positif antara biaya iklan TV dan penjualan. Terlihat bahwa ketika biaya iklan TV meningkat, nilai penjualan juga cenderung meningkat. Pola titik yang membentuk kecenderungan naik ini mengindikasikan bahwa variabel TV memiliki hubungan linear dengan Sales, sehingga data ini sesuai untuk dianalisis menggunakan regresi linear sederhana.

Uji Korelasi

Uji korelasi digunakan untuk melihat kekuatan hubungan antara variabel.

cor(data$TV, data$Sales)
## [1] 0.9012079

Hipotesis:

H0 : Tidak terdapat hubungan antara TV dan Sales
H1 : Terdapat hubungan antara TV dan Sales

Kriteria :

Nilai r Tingkat Hubungan
0.00 – 0.199 Sangat lemah
0.20 – 0.399 Lemah
0.40 – 0.599 Sedang
0.60 – 0.799 Kuat
0.80 – 1.00 Sangat kuat

Kesimpulan:
Berdasarkan hasil perhitungan diperoleh nilai koefisien korelasi sebesar 0.9012079. Nilai tersebut berada pada interval 0.80 – 1.00, sehingga dapat disimpulkan bahwa hubungan antara biaya iklan TV dan penjualan termasuk dalam kategori sangat kuat.
Hal ini berarti semakin besar biaya iklan TV maka penjualan cenderung meningkat.

Model Regresi

Bentuk Umum Model Awal Pada Regresi Linear Sederhana adalah sebagai berikut: \[ y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \epsilon \]

Estimasi Parameter

model <- lm(Sales ~ TV, data = data)

summary(model)
## 
## Call:
## lm(formula = Sales ~ TV, data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.4438 -1.4857  0.0218  1.5042  5.6932 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 6.974821   0.322553   21.62   <2e-16 ***
## TV          0.055465   0.001896   29.26   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.296 on 198 degrees of freedom
## Multiple R-squared:  0.8122, Adjusted R-squared:  0.8112 
## F-statistic: 856.2 on 1 and 198 DF,  p-value: < 2.2e-16

Berdasarkan hasil analisis regresi linear sederhana diperoleh nilai intercept sebesar 6.974821 dan koefisien variabel TV sebesar 0.055465. Nilai intercept menunjukkan bahwa ketika biaya iklan TV bernilai 0, maka nilai penjualan (Sales) diperkirakan sebesar 6.974821. Koefisien TV sebesar 0.055465 menunjukkan bahwa setiap peningkatan satu satuan biaya iklan TV akan meningkatkan nilai penjualan sebesar 0.055465 satuan.

Uji Asumsi Regresi

Asumsi Normalitas Residual

Uji normalitas dilakukan pada residual model menggunakan Kolmogorov-Smirnov Test.

ks.test(residuals(model), "pnorm", 
        mean=mean(residuals(model)), 
        sd=sd(residuals(model)))
## 
##  Asymptotic one-sample Kolmogorov-Smirnov test
## 
## data:  residuals(model)
## D = 0.05659, p-value = 0.5436
## alternative hypothesis: two-sided
qqnorm(residuals(model))
qqline(residuals(model))

Hipotesis:

\[ H_0 : Residual\ berdistribusi\ normal \] \[ H1 : Residual\ tidak\ berdistribusi\ normal \] Kriteria:

  • p-value > 0.05 → residual normal
  • p-value < 0.05 → residual tidak normal

Kesimpulan:
Berdasarkan hasil uji Kolmogorov–Smirnov diperoleh nilai p-value = 0.5436.
Dengan taraf signifikansi α = 0.05, karena p-value (0.5436) > 0.05, maka gagal menolak H₀.
Sehingga dapat disimpulkan bahwa residual berdistribusi normal, sehingga asumsi normalitas pada model regresi terpenuhi.

Asumsi Homoskedasitas

Uji homoskedastisitas dilakukan dengan mengecek penyebaran residual terhadap nilai prediksi.

plot(model$fitted.values, residuals(model),
     xlab = "Nilai Prediksi",
     ylab = "Residual",
     main = "Uji Homoskedastisitas")

abline(h = 0, col = "red")

Kriteria:
Jika titik menyebar secara acak maka tidak terjadi heteroskedastisitas.

Kesimpulan:
Berdasarkan grafik uji homoskedastisitas antara residual dan nilai prediksi, terlihat bahwa titik-titik residual menyebar secara acak di sekitar garis nol dan tidak membentuk pola tertentu. Hal ini menunjukkan bahwa varians residual bersifat konstan sehingga dapat disimpulkan bahwa model regresi memenuhi asumsi homoskedastisitas.

Asumsi Autokorelasi

library(lmtest)
## Warning: package 'lmtest' was built under R version 4.4.3
## Loading required package: zoo
## Warning: package 'zoo' was built under R version 4.4.3
## 
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric
dw <- dwtest(model)
dw
## 
##  Durbin-Watson test
## 
## data:  model
## DW = 2.0294, p-value = 0.583
## alternative hypothesis: true autocorrelation is greater than 0

Kriteria Durbin–Watson:
DW ≈ 2 → tidak ada autokorelasi
DW < 2 → ada kecenderungan autokorelasi positif
DW > 2 → ada kecenderungan autokorelasi negatif

Kesimpulan:
Berdasarkan hasil uji Durbin–Watson diperoleh nilai DW sebesar 2.0294 dengan p-value sebesar 0.583. Nilai DW yang mendekati 2 menunjukkan bahwa tidak terdapat autokorelasi pada residual model regresi. Selain itu, karena p-value > 0.05, maka gagal menolak H₀, sehingga dapat disimpulkan bahwa asumsi tidak adanya autokorelasi terpenuhi.

Asumsi Linearitas

resettest(model)
## 
##  RESET test
## 
## data:  model
## RESET = 5.701, df1 = 2, df2 = 196, p-value = 0.003921

Berdasarkan hasil Ramsey RESET test diperoleh nilai RESET = 5.701 dengan p-value = 0.003921. Dengan taraf signifikansi α = 0.05, karena p-value < 0.05, maka H₀ ditolak.Sehingga dapat disimpulkan bahwa model regresi tidak memenuhi asumsi linearitas, yang berarti terdapat indikasi bahwa model regresi tidak berbentuk linear atau spesifikasi model belum tepat.

Uji Hipotesis Regresi (Uji t)

model <- lm(Sales ~ TV, data = data)

summary(model)
## 
## Call:
## lm(formula = Sales ~ TV, data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.4438 -1.4857  0.0218  1.5042  5.6932 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 6.974821   0.322553   21.62   <2e-16 ***
## TV          0.055465   0.001896   29.26   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.296 on 198 degrees of freedom
## Multiple R-squared:  0.8122, Adjusted R-squared:  0.8112 
## F-statistic: 856.2 on 1 and 198 DF,  p-value: < 2.2e-16

HipotesiS:

\[ H_0 : β_1 = 0\ (variabel\ TV\ tidak\ berpengaruh\ terhadap\ Sales) \] \[ H_ 1 : β_1 ≠ 0\ (variabel\ TV\ berpengaruh\ terhadap\ Sales) \] Taraf signifikansi:5%

Kriteria:
Jika p-value < 0.05 → tolak H₀
Jika p-value ≥ 0.05 → gagal menolak H₀

Kesimpulan:
Berdasarkan hasil uji t diperoleh nilai t hitung sebesar 29.26 dengan p-value < 2e−16 yang lebih kecil dari taraf signifikansi 0.05. Oleh karena itu H₀ ditolak, sehingga dapat disimpulkan bahwa variabel biaya iklan TV berpengaruh signifikan terhadap penjualan.

Uji kelayakan Model ( Uji F)

anova(model)
## Analysis of Variance Table
## 
## Response: Sales
##            Df Sum Sq Mean Sq F value    Pr(>F)    
## TV          1 4512.4  4512.4  856.18 < 2.2e-16 ***
## Residuals 198 1043.5     5.3                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Hipotesis:

\[ H_0: \beta_1 = 0\ (Model\ regresi\ tidak\ layak\ digunakan) \]

\[ H_1: \beta_1 \neq 0\ (Model\ regresi\ layak\ digunakan) \] Taraf Signifikan : 5%

Kriteria Pengambilan Keputusan:
Jika p-value ≤ α, tolak H₀ → model layak digunakan
Jika p-value > α, gagal tolak H₀ → model tidak layak digunakan

Kesimpulan:
Berdasarkan hasil uji F dari tabel ANOVA, nilai F = 856.18 dengan p-value < 2.2e-16. Nilai p-value yang sangat kecil dan < 0.05 ini menunjukkan bahwa model regresi linear sederhana antara biaya iklan TV dan penjualan layak digunakan secara statistik. Artinya, model ini secara keseluruhan mampu menjelaskan variasi penjualan dengan baik, sehingga dapat dijadikan dasar untuk analisis atau prediksi lebih lanjut.

Koefisien Determinasi

summary(model)$r.squared
## [1] 0.8121757

Berdasarkan hasil analisis diperoleh nilai koefisien determinasi (R²) sebesar 0.8121757. Hal ini menunjukkan bahwa sebesar 81.22% variasi pada variabel Sales dapat dijelaskan oleh variabel TV dalam model regresi. Sedangkan sisanya sebesar 18.78% dijelaskan oleh faktor lain di luar model yang tidak dimasukkan dalam penelitian.

Interval Kepercayaan

confint(model)
##                  2.5 %     97.5 %
## (Intercept) 6.33874038 7.61090260
## TV          0.05172671 0.05920283

Berdasarkan hasil interval kepercayaan 95%, diperoleh bahwa nilai intercept berada pada rentang 6.33874038 hingga 7.61090260, sedangkan koefisien TV berada pada rentang 0.05172671 hingga 0.05920283. Hal ini menunjukkan bahwa dengan tingkat kepercayaan 95%, nilai parameter sebenarnya diperkirakan berada dalam interval tersebut.

Plot Regresi Sederhana

plot(data$TV, data$Sales,
     xlab = "Biaya Iklan TV",
     ylab = "Penjualan",
     main = "Regresi Linear Sederhana")

abline(model, col = "red", lwd = 2)

Berdasarkan plot regresi linear sederhana, terlihat bahwa terdapat hubungan positif antara biaya iklan TV dan penjualan.
Garis regresi yang menanjak menunjukkan bahwa peningkatan biaya iklan TV cenderung diikuti oleh peningkatan penjualan.
Hal ini mengindikasikan bahwa biaya iklan TV memiliki pengaruh positif terhadap penjualan.

Model Akhir

coef(model)
## (Intercept)          TV 
##  6.97482149  0.05546477

Berdasarkan hasil analisis regresi linear sederhana diperoleh model akhir dengan nilai intercept sebesar 6.97482149 dan koefisien TV sebesar 0.05546477. Sehingga model regresi yang terbentuk adalah:

\[ Sales = 6.97482149 + 0.05546477 TV \]

Prediksi

Contoh prediksi jika biaya iklan TV sebesar 200.

predict(model, data.frame(TV = 200))
##        1 
## 18.06778

Berdasarkan hasil prediksi diperoleh nilai 18.06778. Hal ini menunjukkan bahwa jika biaya iklan TV sebesar 200, maka penjualan (Sales) yang diprediksi adalah sebesar 18.06778.

Kesimpulan

Berdasarkan hasil analisis regresi linear sederhana antara biaya iklan TV dan penjualan, model regresi yang dibangun terbukti layak digunakan secara statistik. Hal ini ditunjukkan oleh hasil uji F dengan nilai F = 856.18 dan p-value < 2.2e-16. Residual model berdistribusi normal, seperti yang terlihat dari uji Kolmogorov–Smirnov dengan p-value = 0.5436. Asumsi homoskedastisitas terpenuhi karena plot residual terhadap nilai prediksi menunjukkan penyebaran yang acak dan tidak membentuk pola tertentu. Selain itu, asumsi tidak adanya autokorelasi juga terpenuhi dengan nilai Durbin–Watson sebesar 2.0294 dan p-value = 0.583. Uji t untuk koefisien slope menunjukkan nilai t hitung = 29.26 dengan p-value < 2e−16, sehingga variabel biaya iklan TV berpengaruh signifikan terhadap penjualan. Berdasarkan plot regresi, terlihat hubungan positif antara biaya iklan TV dan penjualan, dimana peningkatan biaya iklan TV cenderung diikuti oleh peningkatan penjualan. Dengan demikian, model regresi ini memenuhi semua asumsi regresi, layak digunakan, dan dapat dijadikan dasar untuk analisis atau prediksi penjualan lebih lanjut.