1 PENDAHULUAN

1.1 Latar Belakang

Analisis regresi adalah salah satu metode statistika yang berguna untuk menjelaskan hubungan sebab-akibat antar variabel. Pada analisis regresi, variabel digolongkan menjadi dua jenis, yaitu variabel prediktor dan variabel respon. Variabel prediktor adalah variabel yang berperan memberi pengaruh kepada variabel lain, sedangkan variabel respon adalah variabel yang dijadikan sebagai fktor yang dipengaruhi oleh satu atau sejumlah variabel lain (Haqul, 1989 dalam Nasution, 2017).

Pemilihan variabel prediktor yang tepat dalam pembuatan model regresi khususnya untuk tujuan prediksi merupakan suatu hal yang sangat penting (Breiman & Friedman, 1997 dalam Sunengsih, 2009). Dengan memilih variabel prediktor yang tepat, maka model regresi yang terbentuk dapat efektif dalam menjelaskan hubungan antar variabel.

Oleh karena itu, pada penelitian ini akan dibahas mengenai pemilihan metode regresi terbaik. Harapannya, penelitian ini dapat menjelaskan hal-hal apa saja yang perlu dipahami dan diketahui mengenai pemilihan model regresi terbaik.

1.2 Pemilihan Model Regresi Terbaik

1.2.1 All Possible Regression

All possible regression merupakan metode pemilihan model regresi terbaik dengan cara mengevaluasi semua kemungkinan regresi yang dapat dibuat berdasarkan kriteria tertentu. Kriteria yang digunakan antara lain nilai \(\ R^{2}\) terbesar, nilai adjusted \(\ R^{2}\) terbesar, dan nilai Cp Mallow terkecil.

Kelemahan dari metode ini adlah tidak praktis dan tidak mungkin dilakukan tanpa bantuan komputer (Kurniawan dan Yuniarto, 2016). Hal ini disebabkan karena analisis harus dilakukan untuk setiap kemungkinan model regresi yang terbentuk. Semakin banyak variabel prediktor yang diuji, semakin banyak pula kemungkinan model regresi yang terbentuk, dan semakin banyak pula proses perhitungan yang diperlukan.

1.2.2 Forward Selection

Forward selection adalah metode pembentukan model regresi terbaik berdasarkan pendekatan dengan cara melakukan pemilihan variabel dengan memasukkan variabel bebas yang memiliki nilai korelasi terbesar. Setelah itu, dilakukan pemeriksaan nilai F model yang terbentuk. Jika signifikan, maka variabel dengan nilai korelasi terbesar selanjutnya masuk ke dalam model. Perulangan selesai juka semua variabel prediktor sudah masuk ke dalam model atau nilai F model yang terbentuk sudah tidak signifikan (Kurniawan dan Yuniarto, 2016).

Kelebihan dari metode forward selection adalah sebagai alternatif untuk mengurangi kemungkinan adanya multikolinieritas dalam model yang terbentuk. Di sisi lain, metode ini juga memiliki kekurangan yaitu terdapat kemungkinan adanya lebih banyak variabel prediktor yang tidak begitu signifikan.

1.2.3 Backward Selection

Backward elimination adalah salah satu cara dalam mendapatkan model regresi terbaik. Dalam metode backward elimination, seluruh variabel prediktor dimasukkan ke dalam model lalu secara bertahap variabel-variabel yang tidak memenuhi syarat kelayakan dieliminasi dari model hingga terbentuk model terbaik dengan variabel-variabel yang telah lolos uji di dalamnya (Kurniawan dan Yuniarto, 2016).

Kelebihan dari metode backward selection adalah lebih hemat waktu karena di dalam backward elimination hanya perlu memperhatikan satu variabel saja, yaitu nilai dari F parsial terkecil dalam model (Kurniawan dan Yuniarto, 2016). Kelemahan dari metode backward selection adalah ketika suatu variabel prediktor dikeluarkan dari dalam model, maka variabel tersebut tidak dapat dipertimbangkan atau digunakan kembali.

1.3 Data

Didapatkan data sebanyak 60 sampel yang bertujuan untuk menganalisis pengaruh citra merek (\(x_{1}\)), kualitas produk (\(x_{2}\)), dan promosi (\(x_{3}\)) terhadap keputusan pembelian (\(Y\)). Data ditampilkan sebagai berikut :

> data1
    Y X1 X2 X3
1  60 39 46 39
2  66 42 44 42
3  46 30 36 30
4  52 33 34 33
5  64 41 46 36
6  62 40 44 45
7  48 31 34 36
8  50 32 36 27
9  60 38 45 40
10 66 41 46 42
11 46 30 34 31
12 58 33 44 35
13 65 42 46 41
14 65 41 45 39
15 50 31 35 31
16 64 41 45 42
17 52 32 36 32
18 65 41 44 40
19 61 40 44 41
20 42 27 30 27
21 50 32 37 34
22 58 36 41 38
23 69 45 49 43
24 62 40 45 40
25 47 31 36 30
26 49 33 39 42
27 60 40 44 39
28 52 31 38 32
29 61 41 44 38
30 53 33 39 31
31 60 39 45 35
32 61 41 44 39
33 51 37 37 39
34 57 34 38 41
35 60 36 38 35
36 62 42 45 36
37 54 37 42 35
38 56 40 39 36
39 57 38 41 34
40 61 41 43 36
41 57 33 40 37
42 61 40 46 40
43 60 38 40 39
44 59 38 41 39
45 58 32 39 41
46 60 41 43 36
47 56 36 44 36
48 61 39 41 38
49 61 40 41 37
50 55 40 45 36
51 56 34 39 39
52 54 39 39 37
53 63 41 42 40
54 61 43 41 40
55 53 34 38 41
56 59 38 43 37
57 57 34 38 41
58 54 37 40 41
59 58 34 38 40
60 52 42 44 37

2 SOURCE CODE

2.1 Model Regresi

> reg1 <- lm(Y~X1+X2+X3, data=data1)
> summary(reg1)

Untuk membentuk model regresi pada R, fungsi yang digunakan adalah fungsi lm dan tidak menggunakan package apapun. Pada fungsi lm di atas, \(Y\) merupakan variabel respon, \(x_{1}\), \(x_{2}\), dan \(x_{3}\) adalah variabel prediktor, dan data1 merupakan data yang digunakan. Kemudian fungsi tersebut disimpan sebagai reg1. Untuk menampilkan hasil analisis, digunakan summary(reg1).

Pada penelitian ini, model regresi hasil pemilihan model regresi terbaik disimpan sebagai reg2. Pembentukan reg2 mengikuti format yang sama, hanya saja variabel prediktor yang digunakan harus bersesuaian dengan hasil pemilihan model regresi terbaik.

2.2 Uji Asumsi Model

2.2.1 Uji Normalitas

Pada penelitian ini, uji normalitas yang dilakukan adalah uji Shapiro-Wilk. Untuk melakukan uji Shapiro-Wilk pada R, tidak diperlukan package apapun. Berikut adalah sintax dari uji Shapiro-Wilk:

> shapiro.test(data1$Y)

2.2.2 Uji Multikolinieritas

Pada penelitian ini, uji multikolinieritas yang dilakukan adalah dengan mencari nilai VIF. Untuk mencari nilai VIF pada R, package yang digunakan adalah car. Berikut adalah sintax untuk mencari nilai VIF:

> car::vif(reg1)

2.2.3 Uji Homoskedastisitas

Pada penelitian ini, uji homoskedastisitas yang dilakukan adalah uji Breusch-Pagan. Untuk melakukan uji Breusch-Pagan pada R, package yang digunakan adalah lmtest. Berikut adalah sintax dari uji Breusch-Pagan:

> lmtest::bptest(reg1)

2.2.4 Uji Linieritas

Pada penelitian ini, uji linieritas yang dilakukan adalah uji RESET Ramsey. Untuk melakukan uji RESET Ramsey pada R, package yang digunakan adalah lmtest. Berikut adalah sintax dari uji RESET Ramsey:

> lmtest::resettest(reg1, power=2)

2.2.5 Uji Autokorelasi

Pada penelitian ini, uji autokorelasi yang dilakukan adalah uji Durbin-Watson. Untuk melakukan uji Durbin-Watson pada R, package yang digunakan adalah lmtest. Berikut adalah sintax dari uji Durbin-Watson:

> lmtest::dwtest(reg1)

2.3 Pemilihan Model Regresi Terbaik

2.3.1 All Possible Regression

Pemilihan model regresi terbaik dengan metode all possible regression pada R dapat menggunakan package olsrr dengan sintax sebagai berikut:

> olsrr::ols_step_all_possible(reg1)

2.3.2 Forward Selection

Pemilihan model regresi terbaik dengan metode forward selection pada R dapat menggunakan package olsrr dengan sintax sebagai berikut:

> olsrr::ols_step_forward_p(reg1)

2.3.3 Backward Selection

Pemilihan model regresi terbaik dengan metode backward selection pada R dapat menggunakan package olsrr dengan sintax sebagai berikut:

> olsrr::ols_step_backward_p(reg1)

3 HASIL DAN PEMBAHASAN

3.1 Model Regresi Awal

> reg1 <- lm(Y~X1+X2+X3, data=data1)
> summary(reg1)

Call:
lm(formula = Y ~ X1 + X2 + X3, data = data1)

Residuals:
    Min      1Q  Median      3Q     Max 
-9.3648 -1.3964  0.3942  1.8068  5.7645 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept)   2.3244     3.9262   0.592  0.55622   
X1            0.4928     0.1641   3.003  0.00399 **
X2            0.5798     0.1702   3.407  0.00122 **
X3            0.3468     0.1136   3.054  0.00346 **
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 2.688 on 56 degrees of freedom
Multiple R-squared:  0.7941,    Adjusted R-squared:  0.7831 
F-statistic: 72.01 on 3 and 56 DF,  p-value: < 2.2e-16

Didapatkan model regresi awal sebelum pemilihan model regresi terbaik sebagai berikut: \[\hat{Y} = 2.3244 + 0.4928 x_{1} + 0.5798 x_{2} + 0.3468 x_{3}\]

3.2 Uji Asumsi Model

3.2.1 Uji Normalitas

Hipotesis:

\(H_{0}\) : Data menyebar secara normal (p-value \(\gt \alpha\))

\(H_{1}\) : Data menyebar secara tidak normal (p-value \(\le \alpha\))

> shapiro.test(data1$Y)

    Shapiro-Wilk normality test

data:  data1$Y
W = 0.97124, p-value = 0.1677

Dengan \(\alpha\) = 0.05, dapat diputuskan bahwa \(H_{0}\) diterima, sehingga dapat diputuskan bahwa data menyebar secara normal.

3.2.2 Uji Multikolinieritas

Jika nilai VIF lebih dari 10 maka dapat diputuskan bahwa terjadi multikolinieritas.

> car::vif(reg1)
      X1       X2       X3 
3.809162 3.694144 1.642937 

Nilai VIF dari ketiga variabel prediktor seluruhnya di bawah 10, maka dapat disimpulkan bahwa model regresi ini tidak mengandung multikolinieritas.

3.2.3 Uji Homoskedastisitas

Hipotesis:

\(H_{0}\) : Ragam galat bersifat homoskedastisitas (p-value \(\gt \alpha\))

\(H_{1}\) : Ragam galat bersifat heteroskedastisitas. (p-value \(\le \alpha\))

> lmtest::bptest(reg1)

    studentized Breusch-Pagan test

data:  reg1
BP = 0.8575, df = 3, p-value = 0.8357

Dengan \(\alpha\) = 0.05, dapat diputuskan bahwa \(H_{0}\) diterima, sehingga dapat diputuskan bahwa ragam galat bersifat homoskedastisitas

3.2.4 Uji Linieritas

Hipotesis:

\(H_{0}\) : Model regresi bersifat linier (p-value \(\gt \alpha\))

\(H_{1}\) : Model regresi bersifat nonlinier (p-value \(\le \alpha\))

> lmtest::resettest(reg1, power=2)

    RESET test

data:  reg1
RESET = 0.057741, df1 = 1, df2 = 55, p-value = 0.811

Dengan \(\alpha\) = 0.05, dapat diputuskan bahwa \(H_{0}\) diterima, sehingga dapat diputuskan bahwa model regresi bersifat linier.

3.2.5 Uji Autokorelasi

> lmtest::dwtest(reg1)

    Durbin-Watson test

data:  reg1
DW = 2.0573, p-value = 0.5929
alternative hypothesis: true autocorrelation is greater than 0

Dengan jumlah sampel sebanyak 60 sampel dan variabel prediktor sebanyak 3 variabel, didapatkan nilai dL sebesar 1,4797 dan dU sebesar 1,6889. Selanjutnya didapatkan nilai 4-dU sebesar 2,3111 dan 4-dL sebesar 2,5203. Karena nilai DW berada di antara nilai dU dan 4-dU, maka dapat diputuskan bahwa tidak terjadi kasus autokorelasi pada model regresi ini.

3.3 Pemilihan Model Regresi Terbaik

3.3.1 All Possible Regression

> olsrr::ols_step_all_possible(reg1)
  Index N Predictors  R-Square Adj. R-Square Mallow's Cp
2     1 1         X2 0.7043718     0.6992748    24.41773
1     2 1         X1 0.7002833     0.6951158    25.52990
3     3 1         X3 0.4747149     0.4656582    86.88974
6     4 2      X2 X3 0.7609791     0.7525924    11.01922
4     5 2      X1 X2 0.7598586     0.7514325    11.32404
5     6 2      X1 X3 0.7514584     0.7427376    13.60908
7     7 3   X1 X2 X3 0.7941352     0.7831067     4.00000

Pada perhitungan dengan metode All Possible Regression, dapat dilihat bahwa persamaan regresi yang mengandung semua prediktor memiliki nilai \(\ R^{2}\) terbesar, nilai adjusted \(\ R^{2}\) terbesar, dan nilai Cp Mallow terkecil, sehingga dapat disimpulkan bahwa persamaan regresi yang mengandung semua prediktor tersebut merupakan model regresi terbaik.

3.3.2 Forward Selection

> olsrr::ols_step_forward_p(reg1)

                            Selection Summary                             
-------------------------------------------------------------------------
        Variable                  Adj.                                       
Step    Entered     R-Square    R-Square     C(p)        AIC        RMSE     
-------------------------------------------------------------------------
   1    X2            0.7044      0.6993    24.4177    312.5238    3.1657    
   2    X3            0.7610      0.7526    11.0192    301.7707    2.8714    
   3    X1            0.7941      0.7831     4.0000    294.8108    2.6885    
-------------------------------------------------------------------------

Pada perhitungan dengan metode Forward Selection, semua variabel prediktor dapat dimasukkan dalam perhitungan, sehingga dapat disimpulkan bahwa persamaan regresi yang mengandung semua variabel prediktor merupakan model regresi terbaik.

3.3.3 Backward Selection

> olsrr::ols_step_backward_p(reg1)
[1] "No variables have been removed from the model."

Pada perhitungan dengan metode Backward Selection, tidak ada variabel prediktor yang dieliminasi, sehingga dapat disimpulkan bahwa persamaan regresi yang mengandung semua variabel prediktor merupakan model regresi terbaik.

3.4 Model Regresi Akhir

> reg2 <- lm(Y~X1+X2+X3, data=data1)
> summary(reg2)

Call:
lm(formula = Y ~ X1 + X2 + X3, data = data1)

Residuals:
    Min      1Q  Median      3Q     Max 
-9.3648 -1.3964  0.3942  1.8068  5.7645 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept)   2.3244     3.9262   0.592  0.55622   
X1            0.4928     0.1641   3.003  0.00399 **
X2            0.5798     0.1702   3.407  0.00122 **
X3            0.3468     0.1136   3.054  0.00346 **
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 2.688 on 56 degrees of freedom
Multiple R-squared:  0.7941,    Adjusted R-squared:  0.7831 
F-statistic: 72.01 on 3 and 56 DF,  p-value: < 2.2e-16

Berdasarkan hasil pemilihan model regresi terbaik, didapatkan model regresi akhir sebagai berikut: \[\hat{Y} = 2.3244 + 0.4928 x_{1} + 0.5798 x_{2} + 0.3468 x_{3}\]

4 DAFTAR PUSTAKA

Kurniawan, Robert dan Yuniarto, Budi. 2016. Analisis Regresi: Dasar dan Penerapannya dengan R. Jakarta: Penerbit Kencana.

Nasution, Sangkot. 2017. Variabel Penelitian. RAUDHAH. 5 (2).

Sunengsih, Neneng. 2009. Seleksi Variabel dalam Analisis Regresi Mutivariat Multipel. Seminar Nasional Matematika dan Pendidikan Matematika 2009. ISSN 978-979-16353-3-2.

Zaini, Ahmad Baihakki. 2013. Pengaruh Citra Merek, Kualitas Produk dan Promosi Terhadap Keputusan Pembelian (Studi Kasus Pengguna Produk Pepsodent di Wilayah Jakarta Timur). Skripsi. Fakultas Ekonomi dan Bisnis, Manajemen, Universitas Islam Negeri Syarif Hidayatullah, Jakarta.