Regresi Linear Sederhana adalah metode statistik yang berfungsi untuk menguji sejauh mana hubungan sebab akibat antara variabel faktor penyebab (X) terhadap variabel akibatnya. Faktor penyebab pada umumnya dilambangkan dengan X atau disebut juga dengan predictor sedangkan variabel akibat dilambangkan dengan Y atau disebut juga dengan response. Regresi linear sederhana atau sering disingkat dengan SLR (Simple Linear Regression) juga merupakan salah satu metode statistik yang dipergunakan dalam produksi untuk melakukan peramalan ataupun prediksi tentang karakteristik kualitas maupun kuantitas. Contoh Penggunaan Analisis Regresi Linear Sederhana dalam Produksi antara lain :
Setelah harga a dan b ditemukan, maka persamaan regresi linier sederhana dapat disusun. Model persamaan regresi linear sederhana adalah seperti berikut ini:
Persamaan regresi yang telah ditemukan itu dapat digunakan untuk melakukan prediksi (ramalan) bagaimana individu dalam variabel dependen akan terjadi bila individu dalam variabel independen ditetapkan. Pengambilan harga-harga X untuk meramalkan Y harus dipertimbangkan secara rasional dan menurut pengalaman, yang masih berada pada batas ruang gerak X.
Secara umum langkah-langkah analisis regresi adalah sebagai berikut:
Dalam membangun model regresi linier, metode estimasi yang digunakan adalah dengan metode estimasi kuadrat terkecil (ordinary least square), yaitu dengan meminimumkan jumlah kuadrat residual. Terdapat asumsi yang harus diuji dalam membangun model regresi linier tersebut. Asumsi model tersebut sering juga disebut sebagai asumsi klasik yang terdiri atas uji normalitas residual, uji asumsi variasi galat yang bersifat konstan (homoskedastisitas), uji asumsi tidak adanya serial korelasi dari galat (autokorelasi), dan uji multikolinieritas antarvariabel independen.
# read data
=read.csv(file.choose(),header=TRUE,sep=";")
data# cek data
head(data)
= data$Rata.rata.Suhu.Ruangan
x = data$Jumlah.Cacat y
#cek type data
str(data)
> 'data.frame': 30 obs. of 3 variables:
> $ Tanggal : int 1 2 3 4 5 6 7 8 9 10 ...
> $ Rata.rata.Suhu.Ruangan: int 24 22 21 20 22 19 20 23 24 25 ...
> $ Jumlah.Cacat : int 10 5 6 3 6 4 5 9 11 13 ...
#cek Korelasi
#visualisasi korelasi
library(ggplot2)
ggplot(data, aes(x=x, y=y)) +
geom_point(color='#778899', size = 4) +
geom_smooth(method=lm, se=FALSE, fullrange=TRUE, color='#20B2AA')
Hubunga antara X dan Y menghasilkan korelasi positif dimana kenaikan satu variabel rata-rata suhu ruangan menyebabkan penambahan nilai pada variabel jumlah cacat atau dengan kata lain rata-rata suhu ruangan berbanding lurus dengan jumlah cacat
Seorang Engineer ingin mempelajari pengaruh Suhu Ruangan terhadap Jumlah Cacat, sehingga dapat memprediksi atau meramalkan jumlah cacat produksi jika suhu ruangan tersebut tidak terkendali. Engineer tersebut kemudian mengambil data selama 30 hari terhadap rata-rata (mean) suhu ruangan dan Jumlah Cacat Produksi.
Berikut Informasi Dari Dataset:
#Membuat Model
= lm(y~x, data= data)
model summary(model)
>
> Call:
> lm(formula = y ~ x, data = data)
>
> Residuals:
> Min 1Q Median 3Q Max
> -2.51523 -0.72716 -0.01523 0.79705 2.58512
>
> Coefficients:
> Estimate Std. Error t value Pr(>|t|)
> (Intercept) -24.38093 1.98402 -12.29 8.49e-13 ***
> x 1.44983 0.08463 17.13 2.26e-16 ***
> ---
> Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
>
> Residual standard error: 1.198 on 28 degrees of freedom
> Multiple R-squared: 0.9129, Adjusted R-squared: 0.9098
> F-statistic: 293.5 on 1 and 28 DF, p-value: 2.255e-16
anova(model)
Hipotesis Uji
H0:B0 = 0 (model tidak layak digunakan)
H1:B1 ≠ 0 (model layak digunakan)
Tingkat Signifikansi
= 5% = 0,05
Daerah Kritis
Tolak H0 jika p-value ≤ 0.,05
Statistik Uji
Diperoleh p-value = 2,255 x 10-16
Keputusan
Karena nilai p-value = 2,255 x 10-16 < = 0,05 , maka keputusannya H0 ditolak
Kesimpulan
Jadi dapat disimpulkan bahwa model regresi layak digunakan
Uji parsial atau uji-t digunakan untuk menguji parameter secara parsial, dengan kata lain untuk mengetahui apakah variabel independen (X) berpengaruh terhadap variabel dependen (Y)
Setelah dilihat dari output summary model koefisien intercept dan x, keduanya signifikan terhadap model.
Maka model regresinya adalah:
Analisis R digunakan untuk mengetahui seberapa erat hubungannya atau korelasinya antara dua variabel. Sedangkan analisis R2 digunakan untuk mengukur proporsi keberagaman Y ( variabel dependen ) yang mampu dijelaskan oleh X (variabel independen) dalam model.
Nilai R2 yaitu Multiple R-squared = 0,9129 = 91,29 %. Artinya kemampuan model untuk menjelaskan masalah sebesar 91,29 %, sedangkan sisanya yaitu 8, 71 % dijelaskan oleh faktor-faktor lain atau variabel-variabel lain yang belum di masukan ke dalam model.
Model regresi akan dapat dijadikan alat estimasi yang baik dengan melakukan beberapa uji asumsi yaitu uji normalitas, uji autokorelasi, dan uji homoskedastisitas.
Uji Normalitas berguna untuk menentukan data yang telah dikumpulkan berdistribusi normal atau diambil dari populasi normal. Untuk melakukan uji normalitas, diperlukan model residual, residual merupakan selisih antara nilai duga (predicted value) dengan nilai pengamatan sebenarnya apabila data yang digunakan adalah data sampel. Setelah itu barulah melakukan uji normalitas dengan hipotesis kolmogorov smirnov. Berikut ini script yang digunakan praktikan:
#Uji Asumsi Kenormalan
=summary(model)
out$residuals out
> 1 2 3 4 5 6
> -0.41487768 -2.51522716 -0.06540190 -1.61557664 -1.51522716 0.83424863
> 7 8 9 10 11 12
> 0.38442336 0.03494758 0.58512232 1.13529705 0.93459810 -0.61557664
> 13 14 15 16 17 18
> 1.38442336 -0.16575137 0.13529705 -1.76435347 -0.21417873 0.13529705
> 19 20 21 22 23 24
> 0.68547179 1.58512232 1.23564653 0.03494758 2.58512232 2.03494758
> 25 26 27 28 29 30
> -0.51522716 -1.06540190 -1.31452821 -0.86470295 -0.31452821 -0.76435347
shapiro.test(out$residuals)
>
> Shapiro-Wilk normality test
>
> data: out$residuals
> W = 0.99534, p-value = 1
Hipotesis
H0: data residual berdistribusi normal
H1: data residual tidak berdistribusi normal
Tingkat Signifikansi
= 5 % = 0,05
Daerah Kritis
Tolak H0 jika p-value <
Statistik Uji
Diperoleh p-value = 0,99534
Keputusan
Karena p-value = 0,99534 > = 0,05, maka keputusannya gagal tolak H0
Kesimpulan
Karena gagal tolak H0, berarti menyimpulkan bahwa data residual menyebar normal, dan asumsi kenormalan sisaan terpenuhi.
Uji autokorelasi bertujuan untuk menguji apakah dalam model regresi linear ada korelasi antara variabel independent dengan variabel dependent. Jika terjadi korelasi, maka dinamakan ada problem autokorelasi. Untuk melakukan uji autokorelasi, maka tuliskan script berikut ini pada script editor:
library(lmtest)
dwtest(model)
>
> Durbin-Watson test
>
> data: model
> DW = 1.2796, p-value = 0.01445
> alternative hypothesis: true autocorrelation is greater than 0
Hipotesis
H0: Tidak terdapat autokorelasi
H1: Terdapat autokorelasi
Tingkat Signifikansi
= 0,05
Daerah Kritis
Tolak H0 apabila 0 < DW <dl atau 4-dl < DW < 4
Gagal Tolak H0 apabila du < DW < 4-du
Tidak ada keputusan apabila dl < DW < du atau 4-du < DW < 4-dl.
Statistik Uji
DW = 1,2796 nilai ini akan dibandingkan dengan nilai tabel signifikasi 5%, dengan (n =30) dan jumlah variabel independent (K=1).
dl = 1,3520
du = 1,4894
0 < DW = 1,2796 < dl = 1,3520
0 < 1,2796 < 1,3520
Keputusan
Karena DW terletak antara 0 dan dl = 0 < 1,2796 < 1,3520 , maka tolak H0.
Kesimpulan
Karena tolak H0, kesimpulannya tidak terdapat autokorelasi
Uji homoskedastisitas digunakan dalam menguji error atau galat dalam model statistik untuk melihat apakah varians atau keragaman dari error terpengaruh oleh faktor lain atau tidak.
library(lmtest)
bptest(model, studentize = FALSE, data= data)
>
> Breusch-Pagan test
>
> data: model
> BP = 0.0018303, df = 1, p-value = 0.9659
Hipotesis
H0 : Asumsi kehomogenan raga sisaan terpenuhi.
H1 : Asumsi kehomogenan ragam sisaan tidak terpenuhi.
Tingkat Signifikansi
α=0,05
Daerah Kritis
Tolak H0 jika p-value≤ α :
Statistika Uji
Diperoleh p-value = 0,9659
Keputusan
Karena nilai p-value = 0,9659 > α=0,05, maka keputusannya adalah gagal tolak H0
Kesimpulan
Jadi dapat disimpulkan bahwa asumsi kehomogenan raga sisaan terpenuhi, artinya homokesdasitas.
Dari persamaan regresi yang didapat, jika diketahui data rata-rata suhu ruangan 18, berapakah hasil prediksi untuk jumlah cacat produksi?
<- predict(model, newdata = data)
pred pred
> 1 2 3 4 5 6 7 8
> 10.414878 7.515227 6.065402 4.615577 7.515227 3.165751 4.615577 8.965052
> 9 10 11 12 13 14 15 16
> 10.414878 11.864703 6.065402 4.615577 4.615577 3.165751 11.864703 14.764353
> 17 18 19 20 21 22 23 24
> 16.214179 11.864703 13.314528 10.414878 14.764353 8.965052 10.414878 8.965052
> 25 26 27 28 29 30
> 7.515227 6.065402 13.314528 11.864703 13.314528 14.764353
Jumlah cacat ketika suhu ruangan 18 derajat C ialah sebanyak 11 Jumlah cacat produksi
Jumlah cacat produksi = -24,38093 + 1,44983Suhu
Nilai konstanta sebesar -24,38093 artinya jika Suhun nilainya adalah 0, maka jumlah produksi yang cacat adalah sebesar -24,38093 . Selain itu, setiap kali suhu naik 1 derajat, maka jumlah kerusakan barang akan meningkat sebesar 1,44983.
Dengan melakukan Uji Overall (Uji F) dapat disimpulkan bahwa model regresi layak digunakan
Nilai R2 yaitu Multiple R-squared = 0,9129 = 91,29 %. Artinya kemampuan model untuk menjelaskan masalah sebesar 91,29 %, sedangkan sisanya yaitu 8, 71 % dijelaskan oleh faktor-faktor lain atau variabel-variabel lain yang belum di masukan ke dalam model.
Data residual menyebar normal, dan asumsi kenormalan sisaan terpenuhi atau artinya Uji Normalitas terpenuhi
Data Tidak terdapat Autokorelasi
Asumsi kehomogenan raga sisaan terpenuhi, artinya homokedasitas
Seorang Engineer mempelajari pengaruh Suhu Ruangan 18 derajat C terhadap Jumlah Cacat, Hasilnya ialah terdapat 11 jumlah cacat dalam produksi
Ketika akan memprediksi Jumlah Cacat Produksi jika suhu dalam keadaan tinggi (Variabel X) misalkan :30°C Y = -24,38 + 1,45 (30) Y = 19,12 Jadi Jika Suhu ruangan mencapai 30°C, maka akan diprediksikan akan terdapat 19,12 unit cacat yang dihasilkan oleh produksi.
Misalkan terdapat Cacat Produksi (Variabel Y) yang ditargetkan hanya boleh 4 unit, maka suhu ruangan yang diperlukan untuk mencapai target ialah: 4 = -24,38 + 1,45X 1,45X = 4 + 24,38 X = 28,38 / 1,45 X = 19,57 Jadi Prediksi Suhu Ruangan yang paling sesuai untuk mencapai target Cacat Produksi adalah sekitar 19,57°C