Analisis regresi linear sederhana adalah metode statistik yang digunakan untuk memprediksi hubungan antara satu variabel independen (X) dan satu variabel dependen (Y). Pada analisis regresi suatu variabel yang mempengaruhi disebut variabel bebas atau independent variable, sedangkan variabel yang dipengaruhi disebut variabel terkait atau dependent variable. Pada regresi sederhana kita dapat mengetahui berapa besar perubahan dari variabel bebas dapat mempengaruhi suatu variabel terkait.
Analisis regresi juga dapat digunakan untuk memahami variabel-variabel bebas mana saja yang dapat berhubungan dengan variabel terikat, serta untuk mengetahui bentuk hubungan tersebut. Tujuan analisis regresi untuk mendapatkan pola hubungan secara matematis dari variabel X dan variabel Y, dan untuk mengetahui besarnya perubahan variabel X terhadap variabel Y, serta untuk memprediksi variabel Y jika nilai variabel X diketahui. Prinsip dasar pada persamaan regresi sederhana adalah bahwa antara variabel dependen (Y) dengan variabel independennya (Y) harus memiliki sifat hubungan sebab akibat atau hubungan kausalitas, berdasarkan teori, dari hasil penelitian sebelumnya, atau juga yang didasarkan dari penjelasan logis tertentu.
Analisis regresi linier sederhana adalah hubungan secara linear antara satu variabel independen (X) dengan variabel dependen (Y). Analisis regresi sederhana dapat digunakan untuk mengetahui arah dari hubungan antara variabel bebas dengan variabel terikat, apakah memiliki hubungan positif atau negatif serta untuk memprediksi nilai dari variabel terikat apabila nilai variabel bebas mengalami kenaikan ataupun penurunan. Model regresi sederhana dapat ditunjukkan pada persamaan berikut: \[Y =\beta_0 + \beta_1 X + \epsilon\] dengan Y adalah variabel dependen, \(X\) adalah variabel independen, dan \(\epsilon\) adalah sesatan atau error
Pemasaran adalah semua cara yang dilakukan untuk membuat orang tertarik dan ingin membeli produk, misalnya dengan membuat iklan di media sosial dengan tujuan banyak yang tertarik untuk membeli produk. Penjualan adalah proses menjual produk atau jasa secara langsung kepada pelanggan dengan tujuan menghasilkan transaksi dan pendapatan. Semakin banyak yang mmengetahui produk kita yang dijual maka akan semakin besar peluang yang membeli produk kita. Jadi, semakin banyak pemasaran maka penjualan dapat meningkat.
Data yang digunakan dalam analisis ini adalah data yang telah dipilih sesuai kebutuhan analisis. variabel yang digunakan adalah Variabel Independen: Pemasaran dan Variabel Dependen: Penjualan.
# Package yang diperlukan
library(readr)
library(readxl)
library(car)
library(lmtest)
library(ggplot2)
library(knitr)
library(markdown)
library(rmarkdown)
# Menampilkan Data
Wisconsin <- read_excel("D:/SEMESTER 4/SIM/State Coffe Chain.xlsx", sheet = "Wisconsin")
Wisconsin
## # A tibble: 108 × 2
## X Y
## <dbl> <dbl>
## 1 20 120
## 2 72 190
## 3 25 180
## 4 68 180
## 5 15 110
## 6 21 150
## 7 20 180
## 8 9 81
## 9 19 150
## 10 20 118
## # ℹ 98 more rows
ggplot(Wisconsin, aes(x = X, y = Y)) +
geom_point(color="#957dad") +
labs(x = "X", y = "Y", title = "Scatterplot of Y vs X")
Scatterplot tersebut menunjukkan adanya hubungan positif antara variabel X dan Y, di mana secara umum nilai Y meningkat seiring dengan peningkatan nilai X. Namun, pola data tidak sepenuhnya linear dan terlihat terbagi dalam beberapa kelompok yang terpisah, yang menunjukkan kemungkinan adanya kategori atau segmen data yang berbeda. Setiap kelompok menunjukkan pola peningkatan tersendiri, dengan beberapa kelompok memiliki sebaran data yang lebih rapat dan lainnya lebih tersebar.
Uji signifikansi adalah langkah untuk mengetahui apakah variabel-variabel dalam model regresi berpengaruh secara statistik terhadap variabel yang ingin diprediksi (variabel dependen). Ada dua jenis uji signifikansi yaitu uji simultan untuk menguji apakah seluruh variabel independen secara bersama-sama berpengaruh terhadap Y dan uji parsial untuk menguji apakah setiap koefisien regresi secara individu berpengaruh signifikan terhadap variabel Y.
\(H_0\): Variabel independen secara simultan tidak berpengaruh signifikan terhadap penjualan
\(H_1\): Minimal terdapat satu variabel independen yang berpengaruh signifikan terhadap penjualan
α = 5% = 0,05
\(H_0\) ditolak jika p-value < \(\alpha\)
model <- lm(Y ~ X, data = Wisconsin)
summary(model)
##
## Call:
## lm(formula = Y ~ X, data = Wisconsin)
##
## Residuals:
## Min 1Q Median 3Q Max
## -63.91 -17.12 -5.20 21.89 78.71
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 104.4441 4.8831 21.39 <2e-16 ***
## X 1.4951 0.1238 12.08 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 32.44 on 106 degrees of freedom
## Multiple R-squared: 0.5792, Adjusted R-squared: 0.5752
## F-statistic: 145.9 on 1 and 106 DF, p-value: < 2.2e-16
Berdasarkan hasil statistik uji diadapatkan p-value \(= <2,2×10^-16\) \(<0,05\) maka \(H_0\) ditolak. Artinya setidaknya terdapat satu variabel independen berpengaruh signifikan terhadap penjualan sehingga model layak digunakan..
\(H_0\): Variabel pemasaran tidak berpengaruh signifikan terhadap penjualan
\(H_1\): Variabel pemasaran berpengaruh signifikan terhadap penjualan.
α = 5% = 0,05
\(H_0\) ditolak jika p-value < \(\alpha\)
summary(model)
##
## Call:
## lm(formula = Y ~ X, data = Wisconsin)
##
## Residuals:
## Min 1Q Median 3Q Max
## -63.91 -17.12 -5.20 21.89 78.71
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 104.4441 4.8831 21.39 <2e-16 ***
## X 1.4951 0.1238 12.08 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 32.44 on 106 degrees of freedom
## Multiple R-squared: 0.5792, Adjusted R-squared: 0.5752
## F-statistic: 145.9 on 1 and 106 DF, p-value: < 2.2e-16
Berdasarkan hasil statistik uji diadapatkan p-value \(= <2,2×10^-16\) \(<0,05\) maka \(H_0\) ditolak. Artinya variabel pemasaran berpengaruh signifikan terhadap penjualan.
Uji asumsi klasik bertujuan untuk memastikan bahwa model regresi yang dibangun valid dan dapat diandalkan. Jika asumsi klasik terpenuhi, maka hasil estimasi koefisien regresi akan bersifat BLUE (Best Linear Unbiased Estimator). Berikut adalah jenis uji asumsi klasik yang dilakukan.
\(H_0\): Data residual model berdistribusi normal
\(H_1\): Data residual model tidak berdistribusi normal
α = 5% = 0,05
\(H_0\) ditolak jika p-value < \(\alpha\)
# Asumsi normalitas menggunakan Shapiro Walk
model <- lm(Y ~ X, data = Wisconsin)
shapiro.test(model$residuals)
##
## Shapiro-Wilk normality test
##
## data: model$residuals
## W = 0.98121, p-value = 0.131
Berdasarkan hasil statistik uji diadapatkan p-value \(= 0,131\) \(>0,05\) maka \(H_0\) diterima. Artinya residual model berdistribusi normal.
\(H_0\): Model regresi sederhana memenuhi asumsi linearitasl
\(H_1\): Model regresi sederhana tidak memenuhi asumsi linearitas
α = 5% = 0,05
\(H_0\) ditolak jika p-value < \(\alpha\)
# Asumsi Linearitas menggunakan Ramsey RESET
model <- lm(Y ~ X, data = Wisconsin)
ramsey_test <- resettest(model, power = 2)
ramsey_test
##
## RESET test
##
## data: model
## RESET = 0.63355, df1 = 1, df2 = 105, p-value = 0.4279
Berdasarkan hasil statistik uji diadapatkan p-value \(= 0,4279\) \(>0,05\) maka \(H_0\) diterima. Artinya model regresi ini memenuhi asumsi normalitas.
\(H_0\): Variansi residual konstan (homoskedastisitas terpenuhi)
\(H_1\): Variansi residual tidak konstan (heteroskedastisitas terpenuhi)
α = 5% = 0,05
\(H_0\) ditolak jika p-value < \(\alpha\)
# Asumsi Homogenitas menggunakan Breusch-Pagan
model <- lm(Y ~ X, data = Wisconsin)
bptest(model)
##
## studentized Breusch-Pagan test
##
## data: model
## BP = 0.11499, df = 1, p-value = 0.7345
Berdasarkan hasil statistik uji diadapatkan p-value \(= 0,7345\) \(>0,05\) maka \(H_0\) diterima. Artinya variansi residualnya konstan atau homoskedastisitas terpenuhi.
\(H_0\): Tidak terdapat autokorelasi antarresidual
\(H_1\): Terdapat autokorelasi pada residual
α = 5% = 0,05
\(H_0\) ditolak jika p-value < \(\alpha\)
# Asumsi Nonautokorelasi menggunakan uji Durbin Watson
model <- lm(Y ~ X, data = Wisconsin)
dwtest(model)
##
## Durbin-Watson test
##
## data: model
## DW = 2.3161, p-value = 0.9517
## alternative hypothesis: true autocorrelation is greater than 0
Berdasarkan hasil statistik uji diadapatkan p-value \(= 0,9517\) \(>0,05\) maka \(H_0\) diterima. Artinya data yang dimiliki tidak terdapat autokorelasi.
Kesimpulan Uji Asumsi
| Uji Asumsi | Keterangan |
|---|---|
| Linearitas | Memenuhi |
| Normalitas Residu | Memenuhi |
| Homogenitas | Memenuhi |
| Non Autokorelasi | Memenuhi |
# Membuat persamaan regresi linear sederhana
model <- lm(Y ~ X, data = Wisconsin)
model
##
## Call:
## lm(formula = Y ~ X, data = Wisconsin)
##
## Coefficients:
## (Intercept) X
## 104.444 1.495
summary(model)
##
## Call:
## lm(formula = Y ~ X, data = Wisconsin)
##
## Residuals:
## Min 1Q Median 3Q Max
## -63.91 -17.12 -5.20 21.89 78.71
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 104.4441 4.8831 21.39 <2e-16 ***
## X 1.4951 0.1238 12.08 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 32.44 on 106 degrees of freedom
## Multiple R-squared: 0.5792, Adjusted R-squared: 0.5752
## F-statistic: 145.9 on 1 and 106 DF, p-value: < 2.2e-16
Dari analisis regresi sederhana diatas diapatkan persamaan regresi sebagai berikut:\[\widehat{Y} = 104,4441 + 1,4951X\] Berdasarkan persamaan tersebut, nilai \(Y\) akan konstan pada \(104,4441\) jika semua variabel bebasnya bernilai nol. Untuk setiap kenaikan 1 satuan pada \(X\), nilai \(Y\) diprediksi akan meningkat sebesar \(1,4951\) satuan. Dari hasil tersebut juga dapat dilihat bahwa model memiliki nilai residual standar error sebesar \(32,44\) menunjukkan rata-rata besar kesalahan (error) antara nilai Y aktual dengan nilai Y prediksi dari model regresi.
Selain itu, model memiliki R-squared Adjusted sebesar \(0,5752\) atau \(57,52\%\) . Artinya, sekitar \(57,52\%\) variasi pada variabel \(Y\) dapat dijelaskan oleh variasi pada variabel \(X\) dalam model yang digunakan. Sisanya, yaitu sekitar \(42,48\%\), dijelaskan oleh faktor lain di luar model (error atau variabel lain yang tidak dimasukkan dalam model). Model sudah cukup baik dalam menjelaskan variasi data namun masih bisa ditingkatkan, misalnya dengan menambah variabel lain yang relevan.