1 PENDAHULUAN

1.1 Latar Belakang

Di dalam kehidupan, terdapat banyak hal yang menarik untuk diselidiki tentang bagaimana hubungan dan pengaruh suatu peubah/variabel terhadap peubah/variabel lainnya. Mungkin saja memang ada suatu hubungan fungsional yang sederhana atau bahkan rumit di antara variabel-variabel tersebut. Hubungan ini dapat dihampiri atau diaproksimasi dengan suatu fungsi matematis. Melalui fungsi semacam ini, banyak informasi yang dapat diperoleh tentang hubungan sebenarnya yang mendasari hal tersebut. Pengaruhnya juga dapat diperhitungkan baik secara bersama maupun terpisah yang dihasilkan oleh perubahan pada variabel-variabel tertentu.

1.2 Tinjauan Pustaka

1.2.1 Regresi Linier Berganda

Analisis regresi linier adalah sebuah metode analisis yang dapat digunakan untuk mengetahui hubungan antara variabel-variabel yang ada. Analisis regresi linier memiliki tujuan untuk mendeskripsikan fenomena data atau kasus yang sedang diteliti, kontrol terhadap suatu hal yang sedang diamati, dan memprediksi nilai variabel terikat melalui model matematis yang terbentuk. Pada analisis regresi terdapat dua jenis variabel yaitu variabel bebas dan variabel terikat. Variabel bebas merupakan data pengamatan yang tidak ditetapkan oleh peneliti (observational data) maupun data yang telah ditetapkan oleh peneliti sebelumnya yang digunakan untuk memprediksi nilai variabel terikat/variabel respon. Jika hanya terdapat satu variabel bebas, maka disebut sebagai regresi linier sederhana. Sedangkan jika terdapat lebih dari satu variabel bebas, maka disebut sebagai regresi linier berganda.

Berikut bentuk persamaan regresi linier berganda: \[ Y=\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_px_p+\epsilon \] Keterangan:

\(Y\) : variabel terikat

\(X\) : variabel bebas

\(\epsilon\) : residual/error

Melalui metode kuadrat terkecil, diperoleh model penduga sebagai berikut:

\[ \hat{Y}=\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_px_p \] Koefisien regresi dapat dibedakan menjadi 2 jenis yaitu:

  • Intersep (\(\beta_0\))

    Intersep merupakan suatu titik perpotongan antara garis dengan sumbu \(Y\). Intersep dapat diinterpretasikan sebagai nilai rata-rata \(Y\) apabila nilai pada variabel \(X\) bernilai 0. Namun, jika data pengamatan pada variabel \(X\) tidak mencakup nilai 0, maka intersep tidak perlu diinterpretasikan karena tidak memiliki makna yang berarti.

  • Slope (\(\beta_i, i\neq 0\))

    Slope merupakan ukuran kemiringan dari suatu garis. Slope adalah koefisien regresi bagi variabel \(X\). Slope dapat menggambarkan seberapa besar kontribusi yang diberikan masing-masing variabel bebas (\(X\)) terhadap variabel terikat (\(Y\)). Nilai slope dapat diartikan pula sebagai rata-rata penambahan atau pengurangan yang terjadi pada variabel terikat (\(Y\)) akibat peningkatan atau penurunan satu satuan variabel bebas (\(X\)).

1.2.2 Asumsi Regresi Linier Berganda

Dalam melakukan analisis regresi, terdapat asumsi-asumsi yang harus dipenuhi agar hasil analisis yang diperoleh dapat dipastikan validitas dan keandalannya. Asumsi-asumsi tersebut adalah sebagai berikut:

1.2.2.1 Asumsi Normalitas

Asumsi normalitas menyatakan bahwa sisaan dalam model regresi mengikuti sebaran normal. Model yang baik memiliki sisaan yang berdistribusi normal. Alat statistik yang sering digunakan untuk menguji normalitas adalah histogram, uji Kolmogorov Smirnov, uji Liliefors, uji Saphiro Wilk, dan lain-lain. Apabila menggunakan uji Kolmogorov Smirnov, Liliefors, atau Saphiro Wilk, maka asumsi normalitas terpenuhi jika p-value>\(\alpha\).

Jika terjadi ketidaknormalan, maka yang harus dilakukan adalah sebagai berikut:

  • Menghilangkan data penyebab ketidaknormalan

  • Menambah banyaknya pengamatan

  • Transformasi data

  • Menggunakan analisis lain, misalnya analisis non parametrik

1.2.2.2 Asumsi Nonmultikolinieritas

Asumsi nonmultikolinieritas menyatakan bahwa tidak terdapat hubungan di antara variabel-variabel bebas. Multikolinieritas terjadi ketika dua atau lebih variabel bebas dalam model sangat berkorelasi satu sama lain sehingga dapat menyebabkan masalah dalam estimasi koefisien regresi. Alat statistik yang sering digunakan untuk mendeteksi multikolinieritas dalam regresi linier adalah VIF (Variance Inlation Factor). Apabila nilai VIF<10, maka asumsi nonmultikolinieritas terpenuhi.

\[ \ VIF_j = \frac{1}{1-R_j^2} \]

1.2.2.3 Asumsi Nonautokorelasi

Asumsi nonautokorelasi menyatakan bahwa tidak terdapat korelasi antara residual periode satu dengan periode sebelumnya. Autokorelasi sering muncul pada kasus data time-series. Adanya autokorelasi pada error menandakan bahwa terdapat satu atau beberapa variabel penting yang memengaruhi variabel terikat (\(Y\)) tetapi tidak dimasukkan ke dalam model regresi. Autokorelasi dapat menyebabkan penduga OLS menjadi tidak bias tetapi tidak efisien, penduga ragam menjadi bias dan tidak konsisten, serta overestimate \(R^2\). Alat statistik yang sering digunakan untuk menguji asumsi ini adalah uji Durbin Watson. Dari hasil uji ini, asumsi nonautokorelasi terpenuhi jika p-value>\(\alpha\).

1.2.2.4 Asumsi Homoskedastisitas

Asumsi homoskedastisitas menyatakan bahwa terdapat kesamaan ragam dari residual antar pengamatan. Umumnya, homoskesdastisitas disebabkan karena adanya pencilan, ragam galat yang tidak konsisten, dan kesalahan dalam penentuan model. Alat statistik yang biasa digunakan untuk menguji asumsi ini adalah uji Rank Spearman, uji Breusch Pagan, uji White, uji Goldfeld Quant, dan uji Harvey Godfrey. Dari hasil uji, asumsi nonautokorelasi terpenuhi jika p-value>\(\alpha\).

1.2.3 Pengujian Signifikansi Koefisien Regresi

Terdapat dua jenis pengujian yaitu uji simultan dan uji parsial.

1.2.3.1 Uji Simultan

Uji simultan sering disebut sebagai Uji-F. Uji ini digunakan untuk menguji koefisien regresi secara bersamaan untuk mengetahui apakah setidaknya terdapat salah satu variabel bebas yang berpengaruh terhadap variabel terikat.

Hipotesis yang berlaku:

\(H_0 :\beta_1 = \beta_2 =...=\beta_p= 0\)

\(H_1\) : setidaknya terdapat satu \(\beta_i\neq 0, i=1,2,...,p\)

Penjabaran hitungan untuk uji simultan dapat diperoleh melalui ANOVA (Analysis of Variance). Statistik uji F didapatkan dari tabel ANOVA.

Daerah penolakan:

Tolak \(H_0\) jika \(F_{hitung}>F_{tabel(db_1,db_2)}\)

Tolak \(H_0\) jika \(p-value<\alpha\)

1.2.3.2 Uji Parsial

Uji parsial sering disebut sebagai Uji-T. Uji ini digunakan untuk menguji koefisien regresi secara individu. Pengujian dilakukan kepada setiap variabel bebas, apakah variabel bebas tersebut memiliki pengaruh signifikan terhadap variabel terikat. Dari pengujian tersebut akan diperoleh nilai statistik uji t.

Daerah penolakan:

  • Tolak \(H_0\) jika \(t_{hitung}>t_{tabel}\)

  • Tolak \(H_0\) jika \(p-value<\alpha\)

1.2.4 Koefisien Determinasi

Koefisien determinasi (\(R^2\)) adalah besarnya keragaman variabel terikat dari model regresi yang dibuat. Nilai \(R^2\) berkisar antara 0 sampai dengan 1. Semakin besar nilai \(R^2\), maka semakin baik model regresi yang diperoleh.

1.3 Data

Data yang akan dianalisis berasal dari buku berjudul Analisis Regresi Terapan yang terdapat pada bab “Dua Peubah Peramal”. Data ini terdiri dari variabel terikat dan dua buah variabel bebas. Amatan-amatan ini diambil pada setiap selang waktu tertentu dari sebuah mesin uap di pabrik. Variabel-variabel tersebut adalah sebagai berikut:

Y: banyaknya uap yang digunakan setiap bulan (pound)

X1: suhu atmosfer rata-rata dalam sebulan (\(^oF\))

X2: banyaknya hari ketika mesin beroperasi dalam sebulan

1.4 Tujuan

Tujuan dilakukan analisis regresi linier berganda pada kasus mesin uap tersebut adalah untuk mengetahui pengaruh atau hubungan suhu atmosfer rata-rata dan banyaknya hari ketika mesin beroperasi dalam sebulan terhadap banyaknya uap yang digunakan mesin setiap bulan.

2 SOURCE CODE

2.1 Library

> library(readxl) #untuk mengimpor data
> library(nortest) #untuk uji asumsi normalitas
> library(car) #untuk uji asumsi nonmultikolinieritas
> library(lmtest) #untuk pemodelan regresi, uji asumsi, dan uji signifikansi

2.2 Impor Data

Data dapat diimpor dari file excel yang tersimpan di dalam komputer. Hal ini dilakukan agar lebih mudah dan cepat dalam melakukan input data. Kemudian, data tersebut diubah menjadi bentuk data frame.

> library(readxl)
> Data_Komstat<-read_excel("D:\\kuliah\\SEMESTER 4\\Komputasi Statistika\\Data Komstat.xlsx")
> Banyaknya_uap<-Data_Komstat$'Y'
> Suhu_atmosfer<-Data_Komstat$'X1'
> Hari_operasi<-Data_Komstat$'X2'
> data.frame(Banyaknya_uap,Suhu_atmosfer,Hari_operasi)
   Banyaknya_uap Suhu_atmosfer Hari_operasi
1          10.98          35.3           20
2          11.13          29.7           20
3          12.51          30.8           23
4           8.40          58.8           20
5           9.27          61.4           21
6           8.73          71.3           22
7           6.36          74.4           11
8           8.50          76.7           23
9           7.82          70.7           21
10          9.14          57.5           20
11          8.24          46.4           20
12         12.19          28.9           21
13         11.88          28.1           21
14          9.57          39.1           19
15         10.94          46.8           23
16          9.58          48.5           21
17         10.09          59.3           22
18          8.11          70.0           22
19          6.83          70.0           11
20          8.88          74.5           23
21          7.68          72.1           20
22          8.47          58.1           21
23          8.86          44.6           20
24         10.36          33.4           20
25         11.08          26.6           22

2.3 Analisis Regresi

> #pemodelan regresi
> reg<-lm(Banyaknya_uap~Suhu_atmosfer+Hari_operasi,data=Data_Komstat)
> 
> #uji asumsi normalitas
> library(nortest)
> lillie.test(reg$residuals)

    Lilliefors (Kolmogorov-Smirnov) normality test

data:  reg$residuals
D = 0.13851, p-value = 0.2479
> 
> #uji asumsi nonmultikolinieritas
> library(car)
> vif(reg)
Suhu_atmosfer  Hari_operasi 
     1.048025      1.048025 
> 
> #asumsi nonautokorelasi
> library(lmtest)
> dwtest(reg)

    Durbin-Watson test

data:  reg
DW = 2.2327, p-value = 0.6885
alternative hypothesis: true autocorrelation is greater than 0
> 
> #asumsi homoskedastisitas
> library(lmtest)
> bptest(reg)

    studentized Breusch-Pagan test

data:  reg
BP = 1.7801, df = 2, p-value = 0.4106
> 
> #pengujian simultan dan signifikansi
> summary(reg)

Call:
lm(formula = Banyaknya_uap ~ Suhu_atmosfer + Hari_operasi, data = Data_Komstat)

Residuals:
    Min      1Q  Median      3Q     Max 
-1.5663 -0.4457  0.1294  0.4839  0.9809 

Coefficients:
               Estimate Std. Error t value Pr(>|t|)    
(Intercept)    9.103842   1.116507   8.154 4.30e-08 ***
Suhu_atmosfer -0.071693   0.008041  -8.916 9.33e-09 ***
Hari_operasi   0.201453   0.046274   4.353 0.000254 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.669 on 22 degrees of freedom
Multiple R-squared:  0.8457,    Adjusted R-squared:  0.8317 
F-statistic:  60.3 on 2 and 22 DF,  p-value: 1.179e-09
> 
> #plot Y dan X1
> plot(x=Suhu_atmosfer,y=Banyaknya_uap, xlab = "Suhu atmosfer", ylab = "Banyaknya uap", main = "Gambar 1. Banyaknya Uap~Suhu Atmosfer",pch=19)
> reg1<-lm(Banyaknya_uap~Suhu_atmosfer, data=Data_Komstat)
> abline(reg1,col="red")

> 
> #Plot Y dan X2
> plot(x=Hari_operasi,y=Banyaknya_uap, xlab = "Suhu atmosfer", ylab = "Banyaknya uap", main = "Gambar 1. Banyaknya Uap~Banyaknya Hari Beroperasi",pch=19)
> reg2<-lm(Banyaknya_uap~Hari_operasi, data=Data_Komstat)
> abline(reg2,col="red")

3 HASIL DAN PEMBAHASAN

3.1 Plot

> #Y dan X1
> plot(x=Suhu_atmosfer,y=Banyaknya_uap, xlab = "Suhu atmosfer", ylab = "Banyaknya uap", main = "Gambar 1. Banyaknya Uap~Suhu Atmosfer",pch=19)
> reg1<-lm(Banyaknya_uap~Suhu_atmosfer, data=Data_Komstat)
> abline(reg1,col="red")

Berdasarkan scatter plot yang telah dibuat, terlihat bahwa titik-titik yang terbentuk memiliki kecendurungan pola menurun. Hal ini menunjukkan bahwa terdapat hubungan negatif yaitu semakin tinggi suhu atmosfer rata-rata dalam sebulan maka akan semakin sedikit uap yang digunakan mesin setiap bulan.

> #Y dan X2
> plot(x=Hari_operasi,y=Banyaknya_uap, xlab = "Suhu atmosfer", ylab = "Banyaknya uap", main = "Gambar 1. Banyaknya uap~Banyaknya Hari Beroperasi",pch=19)
> reg2<-lm(Banyaknya_uap~Hari_operasi, data=Data_Komstat)
> abline(reg2,col="red")

Berdasarkan scatter plot yang telah dibuat, terlihat bahwa titik-titik yang terbentuk memiliki kecenderungan pola naik. Hal ini menunjukkan bahwa terdapat hubungan positif yaitu semakin banyak hari dimana mesin beroperasi dalam sebulan maka akan semakin banyak uap yang digunakan mesin setiap bulan.

3.2 Model Regresi

> reg<-lm(Banyaknya_uap~Suhu_atmosfer+Hari_operasi,data=Data_Komstat)
> reg

Call:
lm(formula = Banyaknya_uap ~ Suhu_atmosfer + Hari_operasi, data = Data_Komstat)

Coefficients:
  (Intercept)  Suhu_atmosfer   Hari_operasi  
      9.10384       -0.07169        0.20145  
Dari hasil tersebut, maka diperoleh persamaan regresi: \[\hat{Y}=9,10384-0,07169X_1+0,20145X_2\] Interpretasi:

Setiap penambahan 1 derajat farenheit suhu atmosfer rata-rata dalam satu bulan maka akan mengurangi banyaknya uap yang digunakan mesin setiap bulan sebanyak 0,07169 pound. Setiap penambahan 1 hari mesin beroperasi maka akan menambah banyaknya uap yang digunakan setiap bulan sebanyak 0,20145 pound.

3.3 Pengujian Asumsi Normalitas

\(H_0 :\) sisaan berdistribusi normal

\(H_1 :\) sisaan tidak berdistribusi normal

\(\alpha=0,05\)

> #uji asumsi normalitas
> library(nortest)
> lillie.test(reg$residuals)

    Lilliefors (Kolmogorov-Smirnov) normality test

data:  reg$residuals
D = 0.13851, p-value = 0.2479

Berdasarkan hasil tersebut, diperoleh p-value (0,2479) > \(\alpha\) maka Ho diterima. Dengan tingkat kepercayaan 95%, dapat disimpulkan bahwa sisaan berdistribusi normal sehingga asumsi normalitas terpenuhi.

3.4 Pengujian Asumsi Nonmultikolinieritas

> #uji asumsi nonmultikolinieritas
> library(car)
> vif(reg)
Suhu_atmosfer  Hari_operasi 
     1.048025      1.048025 

Berdasarkan hasil tersebut, diperoleh VIF kedua variabel bernilai kurang dari 10. Maka, dapat disimpulkan bahwa tidak terdapat multikolinieritas antar variabel bebas sehingga asumsi nonmultikolinieritas terpenuhi.

3.5 Pengujian Asumsi Nonautokorelasi

\(H_0 :\) tidak terjadi kasus autokorelasi

\(H_1 :\) terjadi kasus autokorelasi

\(\alpha=0,05\)

> #asumsi nonautokorelasi
> library(lmtest)
> dwtest(reg)

    Durbin-Watson test

data:  reg
DW = 2.2327, p-value = 0.6885
alternative hypothesis: true autocorrelation is greater than 0

Berdasarkan hasil tersebut, diperoleh p-value (0,6885) > \(\alpha\) maka Ho diterima. Dengan tingkat kepercayaan 95%, dapat disimpulkan bahwa tidak terdapat kasus autokorelasi sehingga asumsi nonautokorelasi terpenuhi.

3.6 Pengujian Asumsi Homoskedastisitas

\(H_0 :\) ragam konstan

\(H_1 :\) ragam tidak konstan

\(\alpha=0,05\)

> #asumsi homoskedastisitas
> library(lmtest)
> bptest(reg)

    studentized Breusch-Pagan test

data:  reg
BP = 1.7801, df = 2, p-value = 0.4106

Berdasarkan hasil tersebut, diperoleh p-value (0,4106) > \(\alpha\) maka Ho diterima. Dengan tingkat kepercayaan 95%, dapat disimpulkan bahwa ragam konstan sehingga asumsi homoskedastisitas terpenuhi.

3.7 Pengujian Signifikansi Koefisien Regresi

> summary(reg)

Call:
lm(formula = Banyaknya_uap ~ Suhu_atmosfer + Hari_operasi, data = Data_Komstat)

Residuals:
    Min      1Q  Median      3Q     Max 
-1.5663 -0.4457  0.1294  0.4839  0.9809 

Coefficients:
               Estimate Std. Error t value Pr(>|t|)    
(Intercept)    9.103842   1.116507   8.154 4.30e-08 ***
Suhu_atmosfer -0.071693   0.008041  -8.916 9.33e-09 ***
Hari_operasi   0.201453   0.046274   4.353 0.000254 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.669 on 22 degrees of freedom
Multiple R-squared:  0.8457,    Adjusted R-squared:  0.8317 
F-statistic:  60.3 on 2 and 22 DF,  p-value: 1.179e-09

3.7.1 Pengujian Simultan

\(H_0 :\beta_1 = \beta_2 = 0\)

\(H_1\) : setidaknya terdapat satu \(\beta_i\neq 0, i=1,2\)

\(\alpha=0,05\)

Berdasarkan pengujian yang telah dilakukan, diperoleh bahwa p-value (\(1,179e-09\)) < \(\alpha\) maka Ho ditolak. Dengan tingkat kepercayaan 95%, dapat disimpulkan bahwa setidaknya terdapat satu variabel di antara suhu atmosfer rata-rata dan banyaknya hari ketika mesin beroperasi dalam sebulan yang berpengaruh terhadap banyaknya uap mesin setiap bulan.

3.7.2 Pengujian Parsial

  • Uji signifikansi bagi \(\beta_1\)

\(H_0 :\beta_1 = 0\)

\(H_1 :\beta_1\neq 0\)

\(\alpha=0,05\)

Berdasarkan pengujian yang telah dilakukan, diperoleh nilai p-value (\(9,33e-09\)) < \(\alpha\) (0,05) maka Ho ditolak. Dengan tingkat kepercayaan 95%, dapat disimpulkan bahwa suhu atmosfer rata-rata dalam sebulan berpengaruh terhadap banyaknya uap mesin setiap bulan.

  • Uji signifikansi bagi \(\beta_2\)

\(H_0 :\beta_2 = 0\)

\(H_1 :\beta_2\neq 0\)

\(\alpha=0,05\)

Berdasarkan pengujian yang telah dilakukan, diperoleh nilai p-value (0,000254) < \(\alpha\) (0,05) maka Ho ditolak. Dengan tingkat kepercayaan 95%, dapat disimpulkan bahwa banyaknya hari ketika mesin beroperasi dalam sebulan berpengaruh terhadap banyaknya uap mesin setiap bulan.

4 PENUTUP

4.1 KESIMPULAN

Berdasarkan analisis regresi linier berganda yang telah dilakukan, dapat disimpulkan bahwa suhu atmosfer rata-rata dan banyaknya hari ketika mesin beroperasi dalam sebulan berpengaruh terhadap banyaknya uap yang digunakan setiap bulan sehingga diperoleh persamaan regresi sebagai berikut:

\[\hat{Y}=9,10384-0,07169X_1+0,20145X_2\]

Setiap penambahan 1 derajat farenheit suhu atmosfer rata-rata dalam satu bulan maka akan mengurangi banyaknya uap yang digunakan mesin setiap bulan sebanyak 0,07169 pound. Setiap penambahan 1 hari mesin beroperasi maka akan menambah banyaknya uap yang digunakan setiap bulan sebanyak 0,20145 pound. Persamaan regresi ini telah memberikan suatu kepastian bahwa persamaan regresi yang diperoleh memiliki ketepatan dalam estimasi, konsisten, dan tidak bias. Hal ini dibuktikan melalui pengujian asumsi normalitas, multikolinieritas, autokorelasi, dan homoskedastisitas. Persamaan regresi ini bisa diterapkan karena nilai \(R^2\) cukup besar yaitu sebesar 0,8317.

4.2 SARAN

Sebelum menerapkan analisis regresi, sebaiknya lakukan penelitian terlebih dahulu untuk memahami variabel-variabel yang relevan. Pilih variabel yang memiliki pengaruh signifikan terhadap variabel target. Pastikan pula asumsi-asumsi regresi terpenuhi agar model yang dibentuk benar-benar mampu mengestimasi parameter.

5 DAFTAR PUSTAKA

Draper, N., & Smith, H. (1992). Analisis Regresi Terapan. Jakarta: PT Gramedia Pustaka Utama.

Effendi,A.,dkk. (2020). Analisis Regresi Teori dan Aplikasi dengan R. Malang: UB Press.

Kurniawan, D. 2008. Regresi Linier (Linier Regression). R.Development core team (2008) R.A Language and environment for statistical computing. R. Foundation for statistical comparing. ISBN 3-900051-07-0, URL http://www.r.project.org/. Venna Austria.

Sembiring, R.K. (1995). Analisis Regresi. Bandung: Penerbit ITB.

Walpole, R.E. (1993). Pengantar Statistika. Jakarta:PT. Gramedia Pustaka Utama.