Regresi Linear

Definisi

Regresi linear merupakan salah satu pendekatan dalam metode statistik yang digunakan untuk memodelkan hubungan linear antara variabel dependen (y/respon/prediksi) dengan satu atau lebih variabel independen (x/prediktor/penjelas/eksogen)1. Dua jenis regresi linear yang sering digunakan yaitu:

  • Regresi linear sederhana: hanya terdiri terdiri dari satu variabel dependen dan satu variabel independen.
  • Regresi linear berganda: terdiri dari satu variabel dependend dan dua atau lebih veriabel independen.

Pada pembahasan kali ini akan dijelaskan mengenai tahapan dalam menggunakan metode analisis regresi linear sederhana.

Model

Model regresi linear sederhana dan regresi linear berganda dapat ditulis sebagai berikut:

Uji asumsi klasik

uji asumsi klasik digunakan sebagai syarat yang perlu dilakukan sebelum melanjutkan analasis lanjut. Berikut uji asumsi klasik pada regresi linear sederhana1:

cara / metode yang disebutkan diatas merupakan salah satu contoh dari metode yang sering digunakan. Penjelasan setiap uji asumsi klasik akan dibahas dibawah dengan ilustrasi data yang akan diberikan.

Uji Hipotesis

Untuk melihat pengaruh variabel independent(x) terhadap variabel dependent(y) diginakan uji parsial dengan hipotesis sebagai berikut:

Hipotesis * \(H_0\): \(β_1\) = 0, variabel independent(x) memiliki pengaruh signifikan terhadap variabel dependent(y) * \(H_0\): \(β_1\) ≠ 0, variabel independent(x) memiliki pengaruh signifikan terhadap variabel dependent(y)

Statistik Uji statistik uji yang digunakan untuk uji parasial adalah uji t sebagai berikut:

Tingkat signifikansi tingkat signifikansi merupakan probabilitas yang ditetapkan untuk menentukan ambang batas dalam pengambilan keputusan terkait pengujian hipotesis.Tingkat signifikansi digunakan untuk menentukan kapan hipotesis nol (\(H_0\)) harus ditolak. Nilai 𝛼 ini merupakan risiko yang kita ambil untuk membuat kesalahan Tipe I, yaitu kesalahan dalam menolak hipotesis nol yang sebenarnya benar. tingkat signifikansi (𝛼) yang umumnya sering digunakan yaitu 0.01, 0.05, 0.10.

Koefisien Determinasi

Koefisien determinasi/\(R_2\) (R-squared) merupakan statistik yang digunakan untuk mengevaluasi seberapa baik model regresi menjelaskan variabilitas data yang diamati. \(R_2\) dapat memberikan informasi tentang proporsi variabilitas dalam variabel dependent (y) yang dapat dijelaskan oleh variabel independent(x).

\(R_2\) berkisar antara 0 hingga 1. * \(R_2\) = 0 menunjukan Model regresi tidak menjelaskan variabilitas dalam data sama sekali. * \(R_2\) = 0 menunjukan Model regresi menjelaskan seluruh variabilitas dalam data.

Data

Berikut merupakan contoh data durasi reparasi komputer dan banyaknya unit yang bisa direparasi.

minutes_y <- c(23,29,49,64,74,87,96,97,109,119,149,145,154,166)
units_x <- c(1,2,3,4,4,5,6,6,7,8,9,9,10,10)

data_reperasi <- data.frame(minutes_y , units_x)
head(data_reperasi)
##   minutes_y units_x
## 1        23       1
## 2        29       2
## 3        49       3
## 4        64       4
## 5        74       4
## 6        87       5
pada kasus ini ingin dilihat:

  • pengaruh banyaknya unit yang bisa direprasi terhadap durasi reparasi komputer
  • prediksi durasi reparasi komputer berdasrkan banyak nya unit yang direparasi
sehingga dapat diketahui

  • y = durasi reparasi komputer
  • x = banyak nya unit yang direparasi

Uji Asumsi

tahap awal sebelum melakukan uji asumsi adalah melakukan analisis regresi untuk y dengan fungsi dari x dengan menggunakan perintah lm()

model_linear <- lm(minutes_y ~ units_x, data = data_reperasi)

Uji Normalitas Residual

Uji normalitas digunakan ini untuk mengetahui apakah nilai residual terdistribusi secara normal atau tidak. Model regresi yang baik adalah model yang memiliki nilai residual yang terdistribusi secara normal1. Terdapat berbagai cara yang dapat dilakkan untuk uji normalitas, salah satunya adalah shapiro wilk metode ini biasanya digunakan ketika jumlah amatan yang dimiliki kurang dari 30. Jika amatan lebih dari 30 biasanya digunakan metode kolmogorov smirnov.

library(tseries)
# mengeluarkan nilai sisaan
residual <- residuals(model_linear)

# uji normalitas
shapiro.test(residual)
## 
##  Shapiro-Wilk normality test
## 
## data:  residual
## W = 0.96741, p-value = 0.8402
Hipotesis:

  • \(H_0\): residual mengikuti distribusi normal
  • \(H_1\): residual tidak mengikuti distribusi normal

pada hasil pengujian diatas, dengan menggunakan shapiro-wilk test diperoleh p-value = 0.8402 > (α) 0.05 sehingga tidak cukup bukti untuk menolak \(H_0\) yang artinya \(H_0\) diterima. Karena \(H_0\) diterima maka asumsi normalitas terpenuhi.

Uji Linearitas

uji ini dilakukan untuk melihat apakah variabel independent yang diguanakan memiliki hubungan linear dengan peubah dependent. salah satu metode yang dapat digunakan untuk melihat apakah asumsi linearitas terpenuhi atau tidak yaitu dengan menggunakan Uji Ramsey RESET pada fungsi resettest()

library(lmtest)
resettest(model_linear)
## 
##  RESET test
## 
## data:  model_linear
## RESET = 0.20417, df1 = 2, df2 = 10, p-value = 0.8186
Hipotesis:

  • \(H_0\): Model linier
  • \(H_1\): Model non linier

pada hasil pengujian diatas, dengan menggunakan terasvirta.test() diperoleh p-value = 0.8186 > (α) 0.05 sehingga tidak cukup bukti untuk menolak \(H_0\) yang artinya \(H_0\) diterima. Karena \(H_0\) diterima maka asumsi linearitas terpenuhi.

Uji Heterokedastisitas

Heteroskedastisitas merupakan keadaan dimana terjadi ketidaksamaan antar varian dari residual untuk semua pengamatan pada model regresi1. untuk menguji heterokesdastisitas digunakan metode studentized Breusch-Pagan test dengan package bptest

library("lmtest")
bptest(model_linear)
## 
##  studentized Breusch-Pagan test
## 
## data:  model_linear
## BP = 0.5143, df = 1, p-value = 0.4733
Hipotesis:

  • \(H_0\): tidak terjadi heteroskedastisitas
  • \(H_1\): terjadi heteroskedastisitas

pada hasil pengujian diatas, dengan menggunakan studentized Breusch-Pagan test diperoleh p-value = 0.4733 > (α) 0.05 sehingga tidak cukup bukti untuk menolak \(H_0\) yang artinya \(H_0\) diterima. Karena \(H_0\) diterima maka asumsi heteroskedastisitas terpenuhi

Model Regresi

model_linear <- lm(minutes_y ~ units_x, data = data_reperasi)
model_linear
## 
## Call:
## lm(formula = minutes_y ~ units_x, data = data_reperasi)
## 
## Coefficients:
## (Intercept)      units_x  
##       4.162       15.509
berdasarkan output diatas maka persamaan regresi untuk pendugaan parameter durasi reparasi komputer yang dapat ditulis adalah sebagai beriktu:

y = 4.162 + 15.509 x

yang berarti: \(β_0\) = 4.162 \(β_1\) = 15.509

Uji Parsial

untuk melihat apakah terdapat pengaruh banyaknya unit yang bisa direprasi terhadap durasi reparasi komputer maka dapat digunakan uji parsial menggunakan uji t dari summary()

summary(model_linear)
## 
## Call:
## lm(formula = minutes_y ~ units_x, data = data_reperasi)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -9.2318 -3.3415 -0.7143  4.7769  7.8033 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    4.162      3.355    1.24    0.239    
## units_x       15.509      0.505   30.71 8.92e-13 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5.392 on 12 degrees of freedom
## Multiple R-squared:  0.9874, Adjusted R-squared:  0.9864 
## F-statistic: 943.2 on 1 and 12 DF,  p-value: 8.916e-13

Hipotesis * \(H_0\): \(β_1\) = 0, banyaknya unit yang bisa direprasi berpengaruh signifikan terhadap durasi reparasi komputer * \(H_0\): \(β_1\) ≠ 0, banyaknya unit yang bisa direprasi tidak berpengaruh signifikan terhadap durasi reparasi komputer

berdasarkan output uji t diatas diperoleh p-value = 8.92e-13 (0.000) < (α) 0.05 artinya pada tingkat signifikansi (α) 0.05 cukup bukti untuk menolak \(H_0\) sehingga dapat disimpulkan banyaknya unit yang bisa direprasi berpengaruh signifikan terhadap durasi reparasi komputer.

Interpretasi

Interpretasi persamaan model regresi linear sederhana

y = 4.162 + 15.509 x

  • koefisien \(β_1\) = 15.509 menunjukan perubahan pada y untuk setiap peningkatan satu satuan pada x. jadi, setiap tambahan satu unit yang direparasi (x meningkat sebesar 1), maka durasi reparasi komputer diprediksi akan meningkat sebesar 15.509 unit waktu.
dari output sebelumnya pada summary(model_linear) diperoleh \(R_2\) = 0.9864 (99%) sehingga dapat dikatakan bahwa:

“98% variabilitas dalam durasi reparasi komputer (y) dapat dijelaskan oleh banyaknya unit yang bisa direprasi (x). Sedangkan sisanya yaitu sekitar 2% dari variasi dalam durasi reparasi tidak dijelaskan oleh model, ini mungkin disebabkan oleh faktor-faktor lain yang tidak diteliti atau noise.

Pendugaan

metode regresi linear juga dapat menduga variabel y berdasarkan variabel x yang dimiliki. Misal pada kasus ini ingin di prediksi ketika jumlah unit yang ingin direparasi adalah 11,12,13,14,15 maka yang dapat kita lakukan adalah sebagai berikut:

# membuat data baru untuk x = 11 hingga 15
unit_x_baru <- data.frame(units_x = c(11:15))

# Prediksi Menggunakan Model
prediksi <- predict(model_linear, unit_x_baru)
print(prediksi)
##        1        2        3        4        5 
## 174.7581 190.2669 205.7757 221.2845 236.7932
library(tidyverse)
data.frame(unit = unit_x_baru$units_x, `prediksi minutes` = prediksi)
##   unit prediksi.minutes
## 1   11         174.7581
## 2   12         190.2669
## 3   13         205.7757
## 4   14         221.2845
## 5   15         236.7932
Source:

  • 1Skiera, B., Reiner, J., & Albers, S. (2021). Regression analysis. In Handbook of market research (pp. 299-327). Cham: Springer International Publishing.
  • 2Mardiatmoko, G. (2020). Pentingnya uji asumsi klasik pada analisis regresi linier berganda (studi kasus penyusunan persamaan allometrik kenari muda [canarium indicum l.]). BAREKENG: Jurnal Ilmu Matematika Dan Terapan, 14(3), 333-342.