Pendahuluan

Pengertian Regresi Linear Sederhana

Regresi Linear Sederhana adalah metode statistik yang berfungsi untuk menguji sejauh mana hubungan sebab akibat antara variabel faktor penyebab (X) terhadap variabel akibatnya. Faktor penyebab pada umumnya dilambangkan dengan X atau disebut juga dengan predictor sedangkan variabel akibat dilambangkan dengan Y atau disebut juga dengan response. Regresi linear sederhana atau sering disingkat dengan SLR (Simple Linear Regression) juga merupakan salah satu metode statistik yang dipergunakan dalam produksi untuk melakukan peramalan ataupun prediksi tentang karakteristik kualitas maupun kuantitas. Contoh Penggunaan Analisis Regresi Linear Sederhana dalam Produksi antara lain :

  1. Hubungan antara Lamanya Kerusakan Mesin dengan Kualitas Produk yang dihasilkan.
  2. Hubungan Jumlah Pekerja dengan Output yang diproduksi.
  3. Hubungan antara suhu ruangan dengan Cacat Produksi yang dihasilkan.

Persamaan Regresi

Setelah harga a dan b ditemukan, maka persamaan regresi linier sederhana dapat disusun. Model persamaan regresi linear sederhana adalah seperti berikut ini:

Persamaan regresi yang telah ditemukan itu dapat digunakan untuk melakukan prediksi (ramalan) bagaimana individu dalam variabel dependen akan terjadi bila individu dalam variabel independen ditetapkan. Pengambilan harga-harga X untuk meramalkan Y harus dipertimbangkan secara rasional dan menurut pengalaman, yang masih berada pada batas ruang gerak X.

Langkah-Langkah Analisis Regresi

Secara umum langkah-langkah analisis regresi adalah sebagai berikut:

  1. Menentukan variabel dependen dan variabel independen dalam model (dengan kata lain menentukan dahulu variabel mana yang mempengaruhi variabel mana, hal ini dapat berdasarkan teori-teori yang sudah ada).
  2. Membangun model dan menyeleksi variabel independent yang signifikan dalam model.
  3. Melakuan cek diagnostik atau uji asumsi model.
  4. Melakukan transformasi terhadap variabel respons dan/atau variabel independen bila diperlukan.

Uji Asumsi

Dalam membangun model regresi linier, metode estimasi yang digunakan adalah dengan metode estimasi kuadrat terkecil (ordinary least square), yaitu dengan meminimumkan jumlah kuadrat residual. Terdapat asumsi yang harus diuji dalam membangun model regresi linier tersebut. Asumsi model tersebut sering juga disebut sebagai asumsi klasik yang terdiri atas uji normalitas residual, uji asumsi variasi galat yang bersifat konstan (homoskedastisitas), uji asumsi tidak adanya serial korelasi dari galat (autokorelasi), dan uji multikolinieritas antarvariabel independen.

  1. Uji Normalitas dapat menggunakan Q-Q plot (namun lebih bersifat subjektif), Shapiro Wilk Test, Uji Jarque Bera, atau juga Uji Kolmogorov-Smirnov.
  2. Uji Homoskedastisitas dapat menggunakan Uji White atau Uji Breusch-Pagan.
  3. Uji Autokorelasi dapat menggunakan Uji Durbin Watson, Uji Breusch Godfrey Lagrange Multiplier, atau juga Uji Portmanteau Q-Ljung-Box.
  4. Uji Multikolinieritas denga menggunakan Variance Inflation Factor (VIF) dengan standar VIF yang diizinkan tidak adanya multikolinieritas umumnya adalah VIF<10.
  5. Pemilihan variabel independen terbaik yang secara statistik mempengaruhi variabel dependen dapat dilakukan dengan metode eliminasi mundur (backward), metode seleksi maju (forward selection), atau metode gabungan (stepwise).

Eksplorasi Data Analyst

# read data 
data=read.csv(file.choose(),header=TRUE,sep=";")
# cek data
head(data)
x = data$Rata.rata.Suhu.Ruangan
y = data$Jumlah.Cacat
#cek type data
str(data)
> 'data.frame': 30 obs. of  3 variables:
>  $ Tanggal               : int  1 2 3 4 5 6 7 8 9 10 ...
>  $ Rata.rata.Suhu.Ruangan: int  24 22 21 20 22 19 20 23 24 25 ...
>  $ Jumlah.Cacat          : int  10 5 6 3 6 4 5 9 11 13 ...
#cek Korelasi
#visualisasi korelasi
library(ggplot2)
ggplot(data, aes(x=x, y=y)) + 
  geom_point(color='#778899', size = 4) + 
  geom_smooth(method=lm, se=FALSE, fullrange=TRUE, color='#20B2AA')

Hubunga antara X dan Y menghasilkan korelasi positif dimana kenaikan satu variabel rata-rata suhu ruangan menyebabkan penambahan nilai pada variabel jumlah cacat atau dengan kata lain rata-rata suhu ruangan berbanding lurus dengan jumlah cacat

Study Kasus

Seorang Engineer ingin mempelajari pengaruh Suhu Ruangan terhadap Jumlah Cacat, sehingga dapat memprediksi atau meramalkan jumlah cacat produksi jika suhu ruangan tersebut tidak terkendali. Engineer tersebut kemudian mengambil data selama 30 hari terhadap rata-rata (mean) suhu ruangan dan Jumlah Cacat Produksi.

Analisis Regresi Linear

Berikut Informasi Dari Dataset:

  1. Tangga - Tanggal ketika melakukan Observasi.
  2. Rata-Rata Suhu Ruangan - Variabel X mendefinisikan rata-rata suhu rungan yang merupakan variabel independent atau variabel yang mempengaruhi atau variabel bebas (tidak ada yang mempengaruhi nilainya).
  3. Jumlah Cacat - variabel Y mendevinisikan jumlah cacat yang merupakan variabel dependen atau variabel yang dipengaruhi atau variabel yang tidak bebeas (ada yang mempengaruhi nilainya).
#Membuat Model
model = lm(y~x, data= data)
summary(model)
> 
> Call:
> lm(formula = y ~ x, data = data)
> 
> Residuals:
>      Min       1Q   Median       3Q      Max 
> -2.51523 -0.72716 -0.01523  0.79705  2.58512 
> 
> Coefficients:
>              Estimate Std. Error t value Pr(>|t|)    
> (Intercept) -24.38093    1.98402  -12.29 8.49e-13 ***
> x             1.44983    0.08463   17.13 2.26e-16 ***
> ---
> Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
> 
> Residual standard error: 1.198 on 28 degrees of freedom
> Multiple R-squared:  0.9129,  Adjusted R-squared:  0.9098 
> F-statistic: 293.5 on 1 and 28 DF,  p-value: 2.255e-16

Uji Overall (Uji F)

anova(model)

Hipotesis Uji

H0:B0 = 0 (model tidak layak digunakan)

H1:B1 ≠ 0 (model layak digunakan)

Tingkat Signifikansi

= 5% = 0,05

Daerah Kritis

Tolak H0 jika p-value ≤ 0.,05

Statistik Uji

Diperoleh p-value = 2,255 x 10-16

Keputusan

Karena nilai p-value = 2,255 x 10-16 < = 0,05 , maka keputusannya H0 ditolak

Kesimpulan

Jadi dapat disimpulkan bahwa model regresi layak digunakan

Uji Parsial (Uji T)

Uji parsial atau uji-t digunakan untuk menguji parameter secara parsial, dengan kata lain untuk mengetahui apakah variabel independen (X) berpengaruh terhadap variabel dependen (Y)

Setelah dilihat dari output summary model koefisien intercept dan x, keduanya signifikan terhadap model.

Menentukan Model

Maka model regresinya adalah:

Analisis R dan R Kuadrat

Analisis R digunakan untuk mengetahui seberapa erat hubungannya atau korelasinya antara dua variabel. Sedangkan analisis R2 digunakan untuk mengukur proporsi keberagaman Y ( variabel dependen ) yang mampu dijelaskan oleh X (variabel independen) dalam model.

Nilai R2 yaitu Multiple R-squared = 0,9129 = 91,29 %. Artinya kemampuan model untuk menjelaskan masalah sebesar 91,29 %, sedangkan sisanya yaitu 8, 71 % dijelaskan oleh faktor-faktor lain atau variabel-variabel lain yang belum di masukan ke dalam model.

Uji Asumsi

Model regresi akan dapat dijadikan alat estimasi yang baik dengan melakukan beberapa uji asumsi yaitu uji normalitas, uji autokorelasi, dan uji homoskedastisitas.

Uji Normalitas

Uji Normalitas berguna untuk menentukan data yang telah dikumpulkan berdistribusi normal atau diambil dari populasi normal. Untuk melakukan uji normalitas, diperlukan model residual, residual merupakan selisih antara nilai duga (predicted value) dengan nilai pengamatan sebenarnya apabila data yang digunakan adalah data sampel. Setelah itu barulah melakukan uji normalitas dengan hipotesis kolmogorov smirnov. Berikut ini script yang digunakan praktikan:

#Uji Asumsi Kenormalan
out=summary(model)
out$residuals
>           1           2           3           4           5           6 
> -0.41487768 -2.51522716 -0.06540190 -1.61557664 -1.51522716  0.83424863 
>           7           8           9          10          11          12 
>  0.38442336  0.03494758  0.58512232  1.13529705  0.93459810 -0.61557664 
>          13          14          15          16          17          18 
>  1.38442336 -0.16575137  0.13529705 -1.76435347 -0.21417873  0.13529705 
>          19          20          21          22          23          24 
>  0.68547179  1.58512232  1.23564653  0.03494758  2.58512232  2.03494758 
>          25          26          27          28          29          30 
> -0.51522716 -1.06540190 -1.31452821 -0.86470295 -0.31452821 -0.76435347
shapiro.test(out$residuals)
> 
>   Shapiro-Wilk normality test
> 
> data:  out$residuals
> W = 0.99534, p-value = 1

Hipotesis

H0: data residual berdistribusi normal

H1: data residual tidak berdistribusi normal

Tingkat Signifikansi

= 5 % = 0,05

Daerah Kritis

Tolak H0 jika p-value <

Statistik Uji

Diperoleh p-value = 0,99534

Keputusan

Karena p-value = 0,99534 > = 0,05, maka keputusannya gagal tolak H0

Kesimpulan

Karena gagal tolak H0, berarti menyimpulkan bahwa data residual menyebar normal, dan asumsi kenormalan sisaan terpenuhi.

Uji Autokorelasi

Uji autokorelasi bertujuan untuk menguji apakah dalam model regresi linear ada korelasi antara variabel independent dengan variabel dependent. Jika terjadi korelasi, maka dinamakan ada problem autokorelasi. Untuk melakukan uji autokorelasi, maka tuliskan script berikut ini pada script editor:

library(lmtest)
dwtest(model)
> 
>   Durbin-Watson test
> 
> data:  model
> DW = 1.2796, p-value = 0.01445
> alternative hypothesis: true autocorrelation is greater than 0

Hipotesis

H0: Tidak terdapat autokorelasi

H1: Terdapat autokorelasi

Tingkat Signifikansi

= 0,05

Daerah Kritis

Tolak H0 apabila 0 < DW <dl atau 4-dl < DW < 4

Gagal Tolak H0 apabila du < DW < 4-du

Tidak ada keputusan apabila dl < DW < du atau 4-du < DW < 4-dl.

Statistik Uji

DW = 1,2796 nilai ini akan dibandingkan dengan nilai tabel signifikasi 5%, dengan (n =30) dan jumlah variabel independent (K=1).

dl = 1,3520

du = 1,4894

0 < DW = 1,2796 < dl = 1,3520

0 < 1,2796 < 1,3520

Keputusan

Karena DW terletak antara 0 dan dl = 0 < 1,2796 < 1,3520 , maka tolak H0.

Kesimpulan

Karena tolak H0, kesimpulannya tidak terdapat autokorelasi

Uji Homoskedastisitas

Uji homoskedastisitas digunakan dalam menguji error atau galat dalam model statistik untuk melihat apakah varians atau keragaman dari error terpengaruh oleh faktor lain atau tidak.

library(lmtest)
bptest(model, studentize = FALSE, data= data)
> 
>   Breusch-Pagan test
> 
> data:  model
> BP = 0.0018303, df = 1, p-value = 0.9659

Hipotesis

H0 : Asumsi kehomogenan raga sisaan terpenuhi.

H1 : Asumsi kehomogenan ragam sisaan tidak terpenuhi.

Tingkat Signifikansi

α=0,05

Daerah Kritis

Tolak H0 jika p-value≤ α :

Statistika Uji

Diperoleh p-value = 0,9659

Keputusan

Karena nilai p-value = 0,9659 > α=0,05, maka keputusannya adalah gagal tolak H0

Kesimpulan

Jadi dapat disimpulkan bahwa asumsi kehomogenan raga sisaan terpenuhi, artinya homokesdasitas.

Prediksi

Dari persamaan regresi yang didapat, jika diketahui data rata-rata suhu ruangan 18, berapakah hasil prediksi untuk jumlah cacat produksi?

pred <- predict(model, newdata = data)
pred
>         1         2         3         4         5         6         7         8 
> 10.414878  7.515227  6.065402  4.615577  7.515227  3.165751  4.615577  8.965052 
>         9        10        11        12        13        14        15        16 
> 10.414878 11.864703  6.065402  4.615577  4.615577  3.165751 11.864703 14.764353 
>        17        18        19        20        21        22        23        24 
> 16.214179 11.864703 13.314528 10.414878 14.764353  8.965052 10.414878  8.965052 
>        25        26        27        28        29        30 
>  7.515227  6.065402 13.314528 11.864703 13.314528 14.764353

Jumlah cacat ketika suhu ruangan 18 derajat C ialah sebanyak 11 Jumlah cacat produksi

Kesimpulan

  1. Model Regresi yang dihasilkan dari penelitian adalah sebagai berikut:

Jumlah cacat produksi = -24,38093 + 1,44983Suhu

  1. Nilai konstanta sebesar -24,38093 artinya jika Suhun nilainya adalah 0, maka jumlah produksi yang cacat adalah sebesar -24,38093 . Selain itu, setiap kali suhu naik 1 derajat, maka jumlah kerusakan barang akan meningkat sebesar 1,44983.

  2. Dengan melakukan Uji Overall (Uji F) dapat disimpulkan bahwa model regresi layak digunakan

  3. Nilai R2 yaitu Multiple R-squared = 0,9129 = 91,29 %. Artinya kemampuan model untuk menjelaskan masalah sebesar 91,29 %, sedangkan sisanya yaitu 8, 71 % dijelaskan oleh faktor-faktor lain atau variabel-variabel lain yang belum di masukan ke dalam model.

  4. Data residual menyebar normal, dan asumsi kenormalan sisaan terpenuhi atau artinya Uji Normalitas terpenuhi

  5. Data Tidak terdapat Autokorelasi

  6. Asumsi kehomogenan raga sisaan terpenuhi, artinya homokedasitas

  7. Seorang Engineer mempelajari pengaruh Suhu Ruangan 18 derajat C terhadap Jumlah Cacat, Hasilnya ialah terdapat 11 jumlah cacat dalam produksi

  8. Ketika akan memprediksi Jumlah Cacat Produksi jika suhu dalam keadaan tinggi (Variabel X) misalkan :30°C Y = -24,38 + 1,45 (30) Y = 19,12 Jadi Jika Suhu ruangan mencapai 30°C, maka akan diprediksikan akan terdapat 19,12 unit cacat yang dihasilkan oleh produksi.

  9. Misalkan terdapat Cacat Produksi (Variabel Y) yang ditargetkan hanya boleh 4 unit, maka suhu ruangan yang diperlukan untuk mencapai target ialah: 4 = -24,38 + 1,45X 1,45X = 4 + 24,38 X = 28,38 / 1,45 X = 19,57 Jadi Prediksi Suhu Ruangan yang paling sesuai untuk mencapai target Cacat Produksi adalah sekitar 19,57°C