Pada pembahasan kali ini akan dijelaskan mengenai tahapan dalam menggunakan metode analisis regresi linear sederhana.
Model regresi linear sederhana dan regresi linear berganda dapat
ditulis sebagai berikut:
cara / metode yang disebutkan diatas merupakan salah satu contoh dari metode yang sering digunakan. Penjelasan setiap uji asumsi klasik akan dibahas dibawah dengan ilustrasi data yang akan diberikan.
Untuk melihat pengaruh variabel independent(x) terhadap variabel dependent(y) diginakan uji parsial dengan hipotesis sebagai berikut:
Hipotesis * \(H_0\): \(β_1\) = 0, variabel independent(x) memiliki pengaruh signifikan terhadap variabel dependent(y) * \(H_0\): \(β_1\) ≠ 0, variabel independent(x) memiliki pengaruh signifikan terhadap variabel dependent(y)
Statistik Uji statistik uji yang digunakan untuk uji
parasial adalah uji t sebagai berikut:
Tingkat signifikansi tingkat signifikansi merupakan probabilitas yang ditetapkan untuk menentukan ambang batas dalam pengambilan keputusan terkait pengujian hipotesis.Tingkat signifikansi digunakan untuk menentukan kapan hipotesis nol (\(H_0\)) harus ditolak. Nilai 𝛼 ini merupakan risiko yang kita ambil untuk membuat kesalahan Tipe I, yaitu kesalahan dalam menolak hipotesis nol yang sebenarnya benar. tingkat signifikansi (𝛼) yang umumnya sering digunakan yaitu 0.01, 0.05, 0.10.
Koefisien determinasi/\(R_2\) (R-squared) merupakan statistik yang digunakan untuk mengevaluasi seberapa baik model regresi menjelaskan variabilitas data yang diamati. \(R_2\) dapat memberikan informasi tentang proporsi variabilitas dalam variabel dependent (y) yang dapat dijelaskan oleh variabel independent(x).
\(R_2\) berkisar antara 0 hingga 1. * \(R_2\) = 0 menunjukan Model regresi tidak menjelaskan variabilitas dalam data sama sekali. * \(R_2\) = 0 menunjukan Model regresi menjelaskan seluruh variabilitas dalam data.
Berikut merupakan contoh data durasi reparasi komputer dan banyaknya unit yang bisa direparasi.
minutes_y <- c(23,29,49,64,74,87,96,97,109,119,149,145,154,166)
units_x <- c(1,2,3,4,4,5,6,6,7,8,9,9,10,10)
data_reperasi <- data.frame(minutes_y , units_x)
head(data_reperasi)
## minutes_y units_x
## 1 23 1
## 2 29 2
## 3 49 3
## 4 64 4
## 5 74 4
## 6 87 5
pada kasus ini ingin dilihat:
tahap awal sebelum melakukan uji asumsi adalah melakukan analisis
regresi untuk y dengan fungsi dari x dengan menggunakan perintah
lm()
model_linear <- lm(minutes_y ~ units_x, data = data_reperasi)
Uji normalitas digunakan ini untuk mengetahui apakah nilai residual terdistribusi secara normal atau tidak. Model regresi yang baik adalah model yang memiliki nilai residual yang terdistribusi secara normal1. Terdapat berbagai cara yang dapat dilakkan untuk uji normalitas, salah satunya adalah shapiro wilk metode ini biasanya digunakan ketika jumlah amatan yang dimiliki kurang dari 30. Jika amatan lebih dari 30 biasanya digunakan metode kolmogorov smirnov.
library(tseries)
# mengeluarkan nilai sisaan
residual <- residuals(model_linear)
# uji normalitas
shapiro.test(residual)
##
## Shapiro-Wilk normality test
##
## data: residual
## W = 0.96741, p-value = 0.8402
Hipotesis:
pada hasil pengujian diatas, dengan menggunakan
shapiro-wilk test diperoleh p-value = 0.8402 > (α) 0.05
sehingga tidak cukup bukti untuk menolak \(H_0\) yang artinya \(H_0\) diterima. Karena \(H_0\) diterima maka asumsi
normalitas terpenuhi.
uji ini dilakukan untuk melihat apakah variabel independent yang
diguanakan memiliki hubungan linear dengan peubah dependent. salah satu
metode yang dapat digunakan untuk melihat apakah asumsi linearitas
terpenuhi atau tidak yaitu dengan menggunakan Uji Ramsey
RESET pada fungsi resettest()
library(lmtest)
resettest(model_linear)
##
## RESET test
##
## data: model_linear
## RESET = 0.20417, df1 = 2, df2 = 10, p-value = 0.8186
Hipotesis:
pada hasil pengujian diatas, dengan menggunakan
terasvirta.test() diperoleh p-value = 0.8186 > (α) 0.05
sehingga tidak cukup bukti untuk menolak \(H_0\) yang artinya \(H_0\) diterima. Karena \(H_0\) diterima maka asumsi
linearitas terpenuhi.
Heteroskedastisitas merupakan keadaan dimana terjadi ketidaksamaan
antar varian dari residual untuk semua pengamatan pada model
regresi1. untuk menguji heterokesdastisitas digunakan metode
studentized Breusch-Pagan test dengan package
bptest
library("lmtest")
bptest(model_linear)
##
## studentized Breusch-Pagan test
##
## data: model_linear
## BP = 0.5143, df = 1, p-value = 0.4733
Hipotesis:
pada hasil pengujian diatas, dengan menggunakan
studentized Breusch-Pagan test diperoleh p-value = 0.4733
> (α) 0.05 sehingga tidak cukup bukti untuk menolak \(H_0\) yang artinya \(H_0\) diterima. Karena \(H_0\) diterima maka asumsi
heteroskedastisitas terpenuhi
model_linear <- lm(minutes_y ~ units_x, data = data_reperasi)
model_linear
##
## Call:
## lm(formula = minutes_y ~ units_x, data = data_reperasi)
##
## Coefficients:
## (Intercept) units_x
## 4.162 15.509
berdasarkan output diatas maka persamaan regresi untuk pendugaan
parameter durasi reparasi komputer yang dapat ditulis adalah sebagai
beriktu:
y = 4.162 + 15.509 x
yang berarti: \(β_0\) = 4.162 \(β_1\) = 15.509
untuk melihat apakah terdapat pengaruh banyaknya unit yang bisa
direprasi terhadap durasi reparasi komputer maka dapat digunakan uji
parsial menggunakan uji t dari summary()
summary(model_linear)
##
## Call:
## lm(formula = minutes_y ~ units_x, data = data_reperasi)
##
## Residuals:
## Min 1Q Median 3Q Max
## -9.2318 -3.3415 -0.7143 4.7769 7.8033
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4.162 3.355 1.24 0.239
## units_x 15.509 0.505 30.71 8.92e-13 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5.392 on 12 degrees of freedom
## Multiple R-squared: 0.9874, Adjusted R-squared: 0.9864
## F-statistic: 943.2 on 1 and 12 DF, p-value: 8.916e-13
Hipotesis * \(H_0\): \(β_1\) = 0, banyaknya unit yang bisa direprasi berpengaruh signifikan terhadap durasi reparasi komputer * \(H_0\): \(β_1\) ≠ 0, banyaknya unit yang bisa direprasi tidak berpengaruh signifikan terhadap durasi reparasi komputer
berdasarkan output uji t diatas diperoleh p-value = 8.92e-13 (0.000) < (α) 0.05 artinya pada tingkat signifikansi (α) 0.05 cukup bukti untuk menolak \(H_0\) sehingga dapat disimpulkan banyaknya unit yang bisa direprasi berpengaruh signifikan terhadap durasi reparasi komputer.
y = 4.162 + 15.509 x
summary(model_linear) diperoleh
\(R_2\) = 0.9864 (99%)
sehingga dapat dikatakan bahwa:
“98% variabilitas dalam durasi reparasi komputer (y) dapat dijelaskan oleh banyaknya unit yang bisa direprasi (x). Sedangkan sisanya yaitu sekitar 2% dari variasi dalam durasi reparasi tidak dijelaskan oleh model, ini mungkin disebabkan oleh faktor-faktor lain yang tidak diteliti atau noise.
metode regresi linear juga dapat menduga variabel y berdasarkan variabel x yang dimiliki. Misal pada kasus ini ingin di prediksi ketika jumlah unit yang ingin direparasi adalah 11,12,13,14,15 maka yang dapat kita lakukan adalah sebagai berikut:
# membuat data baru untuk x = 11 hingga 15
unit_x_baru <- data.frame(units_x = c(11:15))
# Prediksi Menggunakan Model
prediksi <- predict(model_linear, unit_x_baru)
print(prediksi)
## 1 2 3 4 5
## 174.7581 190.2669 205.7757 221.2845 236.7932
library(tidyverse)
data.frame(unit = unit_x_baru$units_x, `prediksi minutes` = prediksi)
## unit prediksi.minutes
## 1 11 174.7581
## 2 12 190.2669
## 3 13 205.7757
## 4 14 221.2845
## 5 15 236.7932
Source: