Regresi Linear

Definisi

Regresi linear merupakan salah satu pendekatan dalam metode statistik yang digunakan untuk memodelkan hubungan linear antara variabel dependen (y/respon/prediksi) dengan satu atau lebih variabel independen (x/prediktor/penjelas/eksogen)1. Dua jenis regresi linear yang sering digunakan yaitu:

  • Regresi linear sederhana: hanya terdiri terdiri dari satu variabel dependen dan satu variabel independen.
  • Regresi linear berganda: terdiri dari satu variabel dependend dan dua atau lebih veriabel independen.

Pada pembahasan kali ini akan dijelaskan mengenai tahapan dalam menggunakan metode analisis regresi linear berganda.

Model

Model regresi linear sederhana dan regresi linear berganda dapat ditulis sebagai berikut:

Uji asumsi klasik

uji asumsi klasik digunakan sebagai syarat yang perlu dilakukan sebelum melanjutkan analasis lanjut. Berikut uji asumsi klasik pada regresi linear sederhana1:

cara / metode yang disebutkan diatas merupakan salah satu contoh dari metode yang sering digunakan. Penjelasan setiap uji asumsi klasik akan dibahas dibawah dengan ilustrasi data yang akan diberikan.

Uji Hipotesis

pada regresi linear berganda digunakan dua uji hipotesis yaitu uji simultan dan uji parsial.

Uji simultan digunakan untuk menguji apakah semua variabel independen secara bersama-sama berpengaruh signifikan terhadap variabel dependen.

Hipotesis Uji Simultan * \(H_0\): \(β_1\) = \(β_2\) = … = \(β_k\) = 0; tidak ada pengaruh yang signifikan secara simultan dari semua variabel independen (x) terhadap variabel dependen (y) * \(H_0\): \(β_i\) ≠ 0, paling tidak untuk 1\(_i\); Setidaknya ada satu variabel independen (x) yang berpengaruh signifikan secara simultan terhadap variabel dependen(y)

sedangkan untuk melihat pengaruh masing-masing variabel independent(x) terhadap variabel dependent(y) digunakan uji parsial dengan hipotesis sebagai berikut:

Hipotesis Uji Parsial * \(H_0\): \(β_j\) = 0, variabel independent (\(x_i\)) memiliki pengaruh signifikan terhadap variabel dependent(y) * \(H_0\): \(β_j\) ≠ 0, variabel independent (\(x_i\)) memiliki pengaruh signifikan terhadap variabel dependent(y)

Statistik Uji statistik uji yang digunakan untuk uji parasial adalah uji t sebagai berikut:

Tingkat signifikansi tingkat signifikansi merupakan probabilitas yang ditetapkan untuk menentukan ambang batas dalam pengambilan keputusan terkait pengujian hipotesis.Tingkat signifikansi digunakan untuk menentukan kapan hipotesis nol (\(H_0\)) harus ditolak. Nilai 𝛼 ini merupakan risiko yang kita ambil untuk membuat kesalahan Tipe I, yaitu kesalahan dalam menolak hipotesis nol yang sebenarnya benar. tingkat signifikansi (𝛼) yang umumnya sering digunakan yaitu 0.01, 0.05, 0.10.

Koefisien Determinasi

Koefisien determinasi/\(R_2\) (R-squared) merupakan statistik yang digunakan untuk mengevaluasi seberapa baik model regresi menjelaskan variabilitas data yang diamati. \(R_2\) dapat memberikan informasi tentang proporsi variabilitas dalam variabel dependent (y) yang dapat dijelaskan oleh variabel independent(x).

\(R_2\) berkisar antara 0 hingga 1. * \(R_2\) = 0 menunjukan Model regresi tidak menjelaskan variabilitas dalam data sama sekali. * \(R_2\) = 0 menunjukan Model regresi menjelaskan seluruh variabilitas dalam data.

Data

PT ABC dalam beberapa bulan gencar mempromosikan sejumlah peralatan elektronik dengan mebuka outlet-outlet di berbagai daerah. Berikut merupakan data mengenai:

  • Penjualan (juta rupiah)
  • Biaya Promosi (juta rupiah)
  • Luas Outlet (\(m^2\))
penjualan <- c(205,206,254,246,201,291,234,209,204,216,245,286,312,265,322)
promosi <- c(26,28,35,31,21,49,30,30,24,31,32,47,54,40,42)
outlet <- c(159,164,198,184,150,208,184,154,149,175,192,201,248,16,287)

data_penjualan <- data.frame(penjualan, promosi, outlet)
head(data_penjualan)
##   penjualan promosi outlet
## 1       205      26    159
## 2       206      28    164
## 3       254      35    198
## 4       246      31    184
## 5       201      21    150
## 6       291      49    208
PT ABC ingin melihat:

  • Pengaruh promosi dan luas outlet terhadap penjualan di PT ABC
  • Prediksi penjualan berdasarkan promosi dan luas outlet di PT ABC
sehingga dapat diketahui

  • y = Penjualan (juta rupiah)
  • \(x_1\) = Biaya Promosi (juta rupiah)
  • \(x_2\) = Luas Outlet (\(m^2\))

Uji Asumsi

tahap awal sebelum melakukan uji asumsi adalah melakukan analisis regresi untuk y dengan fungsi dari x dengan menggunakan perintah lm()

model_linear <- lm(penjualan ~ promosi + outlet, data = data_penjualan)

Uji Normalitas Residual

Uji normalitas digunakan ini untuk mengetahui apakah nilai residual terdistribusi secara normal atau tidak. Model regresi yang baik adalah model yang memiliki nilai residual yang terdistribusi secara normal1. Terdapat berbagai cara yang dapat dilakkan untuk uji normalitas, salah satunya adalah shapiro wilk metode ini biasanya digunakan ketika jumlah amatan yang dimiliki kurang dari 30. Jika amatan lebih dari 30 biasanya digunakan metode kolmogorov smirnov.

library(tseries)
# mengeluarkan nilai sisaan
residual <- residuals(model_linear)

# uji normalitas
shapiro.test(residual)
## 
##  Shapiro-Wilk normality test
## 
## data:  residual
## W = 0.92331, p-value = 0.2163
Hipotesis:

  • \(H_0\): residual mengikuti distribusi normal
  • \(H_1\): residual tidak mengikuti distribusi normal

pada hasil pengujian diatas, dengan menggunakan shapiro-wilk test diperoleh p-value = 0.2163 > (α) 0.05 sehingga tidak cukup bukti untuk menolak \(H_0\) yang artinya \(H_0\) diterima. Karena \(H_0\) diterima maka asumsi normalitas terpenuhi.

Uji Linearitas

uji ini dilakukan untuk melihat apakah variabel independent yang diguanakan memiliki hubungan linear dengan peubah dependent. salah satu metode yang dapat digunakan untuk melihat apakah asumsi linearitas terpenuhi atau tidak yaitu dengan menggunakan Uji Ramsey RESET pada fungsi resettest()

library(lmtest)
resettest(model_linear)
## 
##  RESET test
## 
## data:  model_linear
## RESET = 1.6306, df1 = 2, df2 = 10, p-value = 0.2438
Hipotesis:

  • \(H_0\): Model linier
  • \(H_1\): Model non linier

pada hasil pengujian diatas, dengan menggunakan resettest() diperoleh p-value = 0.2438 > (α) 0.05 sehingga tidak cukup bukti untuk menolak \(H_0\) yang artinya \(H_0\) diterima. Karena \(H_0\) diterima maka asumsi linearitas terpenuhi.

Uji Heterokedastisitas

Heteroskedastisitas merupakan keadaan dimana terjadi ketidaksamaan antar varian dari residual untuk semua pengamatan pada model regresi1. untuk menguji heterokesdastisitas digunakan metode studentized Breusch-Pagan test dengan package bptest

library("lmtest")
bptest(model_linear)
## 
##  studentized Breusch-Pagan test
## 
## data:  model_linear
## BP = 1.641, df = 2, p-value = 0.4402
Hipotesis:

  • \(H_0\): tidak terjadi heteroskedastisitas
  • \(H_1\): terjadi heteroskedastisitas

pada hasil pengujian diatas, dengan menggunakan studentized Breusch-Pagan testdiperoleh p-value = 0.4402 > (α) 0.05 sehingga tidak cukup bukti untuk menolak \(H_0\) yang artinya \(H_0\) diterima. Karena \(H_0\) diterima maka asumsi heteroskedastisitas terpenuhi

Uji Multikolinearitas

Uji multikolinearitas digunakan untuk mengidentifikasi apakah terdapat masalah multikolinearitas di antara variabel independen dalam model regresi linear. Multikolinearitas terjadi ketika ada korelasi yang tinggi antara dua atau lebih variabel independen dalam model regresi.

library(car)
vif(model_linear)
##  promosi   outlet 
## 1.166598 1.166598

Karena nilai VIF pada \(X_1\) dan \(X_2\) berada di bawah 10, maka tidak terjadi multikolinieritas. Artinya, asumsi multikolinieritas terpenuhi.

Model Regresi

model_linear <- lm(penjualan ~ promosi + outlet, data = data_penjualan)
model_linear
## 
## Call:
## lm(formula = penjualan ~ promosi + outlet, data = data_penjualan)
## 
## Coefficients:
## (Intercept)      promosi       outlet  
##     98.7370       3.5951       0.1295
berdasarkan output diatas maka persamaan regresi untuk pendugaan parameter penjualan alat elektronik di PT ABC yang dapat ditulis adalah sebagai beriktu:

y = 98.7370 + 3.5951 \(x_1\) + 0.1295 \(x_2\)

yang berarti: \(β_0\) = 98.7370 \(β_1\) = 3.5951 \(β_2\) = 0.1295

Uji Simultan

untuk melihat apakah terdapat pengaruh biaya promosi dan luas outlet secara bersama-sama terhadap penjualan alat elektronik di PT ABC maka digunakan uji simultan dengan uji F yang diperoleh dari summary()

summary(model_linear)
## 
## Call:
## lm(formula = penjualan ~ promosi + outlet, data = data_penjualan)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -17.525 -11.898  -0.307   6.857  35.117 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 98.73699   17.83084   5.537 0.000128 ***
## promosi      3.59507    0.48135   7.469 7.54e-06 ***
## outlet       0.12945    0.07965   1.625 0.130074    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 16.14 on 12 degrees of freedom
## Multiple R-squared:  0.8679, Adjusted R-squared:  0.8459 
## F-statistic: 39.43 on 2 and 12 DF,  p-value: 5.308e-06
  • \(H_0\): \(β_1\) = \(β_2\) = … = \(β_k\) = 0; tidak ada pengaruh yang signifikan secara simultan dari biaya promosi dan luas outlet terhadap penjualan
  • \(H_0\): \(β_i\) ≠ 0, paling tidak untuk 1\(_i\); Setidaknya ada satu variabel independen (x) yang berpengaruh signifikan secara simultan terhadap penjualan

berdasarkan output uji t diatas diperoleh p-value = 5.308e-06 (0.000) < (α) 0.05 dari nilai F-Statistix artinya pada tingkat signifikansi (α) 0.05 cukup bukti untuk menolak \(H_0\) sehingga dapat disimpulkan setidaknya ada satu variabel independen (x) yang berpengaruh signifikan secara simultan terhadap penjualan alat elektronik di PT ABC.

Karena tolak \(H_0\) maka dilanjutkan uji parsial

Uji Parsial

Untuk melihat apakah terdapat pengaruh biaya promosi atau luas outlet terhadap penjualan alat elektronik di PT ABC maka dapat digunakan uji parsial menggunakan uji t dari summary()

summary(model_linear)
## 
## Call:
## lm(formula = penjualan ~ promosi + outlet, data = data_penjualan)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -17.525 -11.898  -0.307   6.857  35.117 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 98.73699   17.83084   5.537 0.000128 ***
## promosi      3.59507    0.48135   7.469 7.54e-06 ***
## outlet       0.12945    0.07965   1.625 0.130074    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 16.14 on 12 degrees of freedom
## Multiple R-squared:  0.8679, Adjusted R-squared:  0.8459 
## F-statistic: 39.43 on 2 and 12 DF,  p-value: 5.308e-06

Hipotesis \(X_1\) * \(H_0\): \(β_1\) = 0; Biaya promosi tidak berpengaruh signifikan terhadap penjualan alat elektronik di PT ABC * \(H_0\): \(β_1\) ≠ 0; Biaya promosi berpengaruh signifikan terhadap penjualan alat elektronik di PT ABC

Hipotesis \(X_2\) * \(H_0\): \(β_1\) = 0; Luas outlet tidak berpengaruh signifikan terhadap penjualan alat elektronik di PT ABC * \(H_0\): \(β_1\) ≠ 0; Luas Outlet berpengaruh signifikan terhadap penjualan alat elektronik di PT ABC

berdasarkan output uji t diatas diperoleh: * p-value promosi = 7.54e-06 (0.000) < 0.05 artinya pada tingkat signifikansi (α) 0.05 cukup bukti untuk menolak \(H_0\) sehingga dapat disimpulkan biaya promosi berpengaruh signifikan terhadap penjualan alat elektronik di PT ABC. * p-value outlet = 0.130074 > 0.05 artinya pada tingkat signifikansi (α) 0.05 tidak cukup bukti untuk menolak \(H_0\) artinya terima \(H_0\) sehingga dapat disimpulan Luas outlet tidak berpengaruh signifikan terhadap penjualan alat elektronik di PT ABC

Interpretasi

Interpretasi persamaan model regresi linear sederhana

y = 98.7370 + 3.5951 \(x_1\) + 0.1295 \(x_2\)

  • koefisien \(β_1\) = 3.5951 menunjukan perubahan pada y untuk setiap peningkatan satu satuan pada \(x_1\) jika x lainnya tetap. jadi, setiap tambahan biaya promosi satu juta rupiah (x meningkat sebesar 1) dengan asumsi luas outlet tetap, maka penjualan alat elektronik di PT ABC akan meningkat sebesar Rp.3.5951 juta atau Rp.3,595,100,-.
  • koefisien \(β_2\) = 0.1295 menunjukan perubahan pada y untuk setiap peningkatan satu satuan pada \(x_2\) jika x lainnya tetap. jadi, setiap tambahan luas outlet satu \(m^2\) (x meningkat sebesar 1 satuan) dengan asumsi biaya promosi tetap, maka penjualan alat elektronik di PT ABC akan meningkat sebesar Rp.0.1295 juta atau Rp.129,500,-.
dari output sebelumnya pada summary(model_linear) diperoleh \(R_2\) = 0.8459 (85%) sehingga dapat dikatakan bahwa:

“85% variabilitas dalam penjualan alat elektronik di PT ABC (y) dapat dijelaskan oleh biaya promosi dan luas outlet. Sedangkan sisanya yaitu sekitar 15% dari variasi dalam penjualan alat elektronik di PT ABC tidak dijelaskan oleh model, ini mungkin disebabkan oleh faktor-faktor lain yang tidak diteliti atau noise.

Pendugaan

metode regresi linear juga dapat menduga variabel y berdasarkan variabel x yang dimiliki. Misal pada kasus ini ingin di prediksi penjualan alat elektronik di PT ABC ketika:

  • biaya promosi (juta rupiah) = 56, 63, 72
  • luas outlet (*\(m^2\)) = 150, 164, 149
# membuat data baru untuk x = 11 hingga 15
promosi_baru <- data.frame(promosi = c(56, 63, 72))
outlet_baru <- data.frame(outlet = c(150, 164, 149))

data_baru <- data.frame(promosi_baru, outlet_baru)
# Prediksi Menggunakan Model
prediksi <- predict(model_linear, data_baru)
print(prediksi)
##        1        2        3 
## 319.4787 346.4565 376.8703
library(tidyverse)
data.frame(promosi = data_baru$promosi, outlet = data_baru$outlet, `prediksi penjualan` = prediksi)
##   promosi outlet prediksi.penjualan
## 1      56    150           319.4787
## 2      63    164           346.4565
## 3      72    149           376.8703
Source:

  • 1Skiera, B., Reiner, J., & Albers, S. (2021). Regression analysis. In Handbook of market research (pp. 299-327). Cham: Springer International Publishing.
  • 2Mardiatmoko, G. (2020). Pentingnya uji asumsi klasik pada analisis regresi linier berganda (studi kasus penyusunan persamaan allometrik kenari muda [canarium indicum l.]). BAREKENG: Jurnal Ilmu Matematika Dan Terapan, 14(3), 333-342.