Library:
Analisis regresi linier adalah analisis statistika yang memanfaatkan hubungan antara dua atau lebih peubah kuantitatif sehingga salah satu peubah dapat diramalkan berdasarkan peubah lainnya. Dalam model regresi terdapat dua variabel yaitu variabel prediktor (X) dan variabel respons (Y).
Variabel prediktor (X) merupakan peubah yang nilai-nilainya dapat ditentukan atau diatur. Sedangkan variabel respons (Y) merupakan peubah yang nilai-nilainya ditentukan berdasarkan nilai-nilai dari satu atau lebih variabel prediktor.
Terdapat dua bentuk analsis regresi linier, yaitu analisis regresi linier sederhana yang hanya terdiri dari satu variabel X dan analisis regresis linier berganda yang terdiri dari dua atau lebih variabel X.
Secara Umum model regresi linier didefinisikan sebagai:
\[ Y {_i} = \beta {_0} + \beta {_1} X {_i} + \epsilon {_i} \] dimana i=1,2,3,…,n
Analisis regresi sederhana merupakan metode yang paling sering digunakan dalam mencari pengaruh atau keeratan suatu hubungan suatu variabel terhadap variabel yang lain. Regresi linear merupakan salah satu perhitungan time series metode kuatintatif Dimana waktu digunakan sebagai dasar prediksi. Persamaan umum metode regresi linier sederhana adalah sebagai berikut :
Secara Umum model regresi linier sederhana didefinisikan sebagai:
\[ Y = a + bX \] Keterangan : \[ a = konstanta \quad (intercept) \] \[ b=koefisien \quad variabel X \] \[ Y=variabel \quad dependen \quad (variabel\quad respons) \] \[ X=variabel \quad independent \quad (variabel \quad prediktor) \]
Asumsi linearitas bertujuan mengetahui apakah hubungan antara variabel prediktor dan variabel respons bersifat linear. Untuk mendeteksi linearitas dapat menggunakan kurva antara residual dan nilai Yduga.
Pengujian asumsi ini bertujuan untuk mengetahui apakah nilai galat(residual) berdistribusi normal atau tidak. Model regresi yang baik adalah model yang galatnya berdistribusi normal. Untuk melihat kenormalan residual dapat menggunakan beberapa cara, yaitu:
QQ-Plot
Uji Shapiro Wilk
Uji Liliefors
Uji Kolmogorov Smirnov
Jika memang nanti didapat hasil bahwa galat tidak berdistribusi secara normal, berikut beberapa cara mengatasi ketidaknormalan galat:
Memmperbanyak sample
Melakukan transformasi data menjadi log, ln, atau bentuk lain.
jika ketidaknormalan disebabkan oleh pencilan pada data, maka gnakan metode regresi robust.
Asumsi homoskedastisitas bertujuan menguji apakah ragam dari residual bersifat konstan. Jika ragam tidak konstat atau terjadi heteroskedastisitas, maka akan terjadi peningkatan varians residual (tidak efisien).
Terdapat beberapa cara untuk mendeteksi heteroskedastisitas, yaitu:
Autokorelasi adalah adanya korelasi atau hubungan antara residual pengamatan yang satu dengan yang lain. Autokorelasi biasanya terjadi pada data yang berurutan (timeseries). Salah satu metode yang dapat digunakan untuk mendeteksi adanya autokorelasi adalah menggunakan uji Durbin Watson.
Multikolinearitas adalah kondisi dimana terdapat korelasi atau hubungan yang sangat tinggi diantara variabel independen. Salah satu tanda model regresi tersebut terdapat multikolinearitas adalah nilai R-square yang tinggi tapi hanya sedikit variabel indipenden yang signifikan.
Terdapat beberapa cara untuk mendeteksi adanya multikolinearitas, yaitu:
Data yang akan digunakan pada analisis adalah data jumlah cacat produksi dan suhu ruangan yang berjumlah 30 data. Dengan suhu ruangan sebagai variabel prediktor (X) dan jumlah cacat produksi sebagai variabel respons (Y) Data didapat dari website academia.edu.
Tujuan dari analsiis ini adalah untuk mengetahui apakah suhu berpengaruh pada jumlah cacat produksi.
Hipotesis :
H0=tidak terdapat hubungan antara suhu dan jumlah cacat vs
H1=terdapat hubungan antara suhu dan jumlah cacat
> jumlah_cacat <- c(5,6,3,6,4,5,9,11,13,7,4,6,3,12,13,16,12,14,12,16,9,13,11,7,5,12,11,13,14)
> suhu <- c(22,21,20,22,19,20,23,24,25,21,20,20,19,25,27,28,25,26,24,27,23,24,23,22,21,26,25,26,27)
> data <- data.frame(suhu, jumlah_cacat)
> data
suhu jumlah_cacat
1 22 5
2 21 6
3 20 3
4 22 6
5 19 4
6 20 5
7 23 9
8 24 11
9 25 13
10 21 7
11 20 4
12 20 6
13 19 3
14 25 12
15 27 13
16 28 16
17 25 12
18 26 14
19 24 12
20 27 16
21 23 9
22 24 13
23 23 11
24 22 7
25 21 5
26 26 12
27 25 11
28 26 13
29 27 14
> kor <- cor.test(suhu, jumlah_cacat, method ="pearson")
> kor
Pearson's product-moment correlation
data: suhu and jumlah_cacat
t = 16.856, df = 27, p-value = 7.404e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.9066721 0.9791799
sample estimates:
cor
0.9556236
Hipotesis :
H0=tidak terdapat penaruh antara suhu dan jumlah cacat vs
H1=terdapat pengaruh antara suhu dan jumlah cacat
> model_reg <- lm(jumlah_cacat~suhu, data = data)
> model_reg
Call:
lm(formula = jumlah_cacat ~ suhu, data = data)
Coefficients:
(Intercept) suhu
-24.402 1.451
> summary(model_reg)
Call:
lm(formula = jumlah_cacat ~ suhu, data = data)
Residuals:
Min 1Q Median 3Q Max
-2.52761 -0.78426 0.02106 0.82637 2.56973
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -24.4016 2.0168 -12.10 2.06e-12 ***
suhu 1.4513 0.0861 16.86 7.40e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 1.217 on 27 degrees of freedom
Multiple R-squared: 0.9132, Adjusted R-squared: 0.91
F-statistic: 284.1 on 1 and 27 DF, p-value: 7.404e-16
Dari output diatas, maka dapat dituliskan persmaan regresi : \[ Y_i= -24.402+1.451X_i \]
Keputusan : karena pvalue (7.404e-16) < α(0,05), maka tolak H0
Interpretasi : dengan taraf nyata 5%, dapat diismpulkan bahwa suhu berpengaruh secara signifikan terhadap jumlah cacat produksi.
> yduga <- predict(model_reg)
> residual <- residuals(model_reg)
> linearitas <- plot(residual, yduga)
Hipotesis :
H0=galat berditribusi normal vs
H1=galat tidak berdistribusi normal
> residual <- residuals(model_reg)
> normal <- shapiro.test(residual)
> normal
Shapiro-Wilk normality test
data: residual
W = 0.99527, p-value = 1
Keputusan : karena pvalue (1) > 0.05, maka terima H0
Interpretasi : dengan taraf nyata 5% dapat disimpulkan bahwa galat menyebar secara normal.
Hipotesis
H0=tidak terdapat gejala heteroskedastisitas vs
H1=terdapat gejala heteroskedastisistas
> homos <- cor.test(suhu, residual, method ="spearman")
> homos
Spearman's rank correlation rho
data: suhu and residual
S = 4170.6, p-value = 0.8884
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho
-0.02725172
Keputusan : karena pvalue (0.8884) > 0.05, maka terima H0
Interpretasi : dengan taraf nyata 5%, dapat disimpulkan bahwa tidak terdapat gejala heterokedastisitas dalam model
Hipotesis
H0=tidak terdapat auto-korelasi vs
H1=terdapat auto-korelasi
> library(lmtest)
> auto <- dwtest(model_reg)
> auto
Durbin-Watson test
data: model_reg
DW = 1.175, p-value = 0.006575
alternative hypothesis: true autocorrelation is greater than 0
Keputusan : karena pvalue (0.006575) < 0.05, maka tolak H0
Interprtasi : dengan taraf nyata 5%, dapat disimpulkan bahwa terdapat auto-korelasi pada model.
Karena pada analisis regresi sederhana hanya terdapat satu variabel prediktor, maka tidak terdapat multikolinearitas-an dalam model.
Berdasarkan analisis yang telah dilakukan diatas, dapat disimpulkan bahwa suhu berpengaruh terhadap jumlah cacat produksi. Dan setelah dilakukan uji asumsi pada model, model tidak memenuhi 2 uji asumsi, yaitu asumsi linearitas dan asumsi non-auto korelasi.
Almumtazah, N., Azizah, N., Putri, Y. L., & Novitasari, D. C. (2021). Prediksi jumlah mahasiswa baru menggunakan metode regresi linier sederhana. Jurnal Ilmiah Matematika Dan Terapan, 18(1).
Bhirawa, W. T. (2020). Proses pengolahan data dari model persamaan regresi dengan menggunakan statistical product and service solution (SPSS). Jurnal Mitra Manajemen, 7(1).
Mardiatmoko, G. (2020). Pentingnya uji asumsi klasik pada analisis regresi linier berganda (studi kasus penyusunan persamaan allometrik kenari muda [canarium indicum l.]). BAREKENG: Jurnal Ilmu Matematika Dan Terapan, 14(3).
Muttaqin, Z., & Srihartini, E. (2022). Penerapan Metode Regresi Linier Sederhana Untuk Prediksi Persediaan Obat Jenis Tablet. JSiI (Jurnal Sistem Informasi).